Join di Spark SQL
Terkadang menulis join yang kompleks jauh lebih mudah dilakukan dalam SQL. Pada latihan ini, kita akan mulai dengan kunci join yang sudah memiliki format dan presisi yang sama, tetapi kita akan menggunakan SparkSQL untuk melakukan proses join.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Daftarkan DataFrame sebagai tabel SparkSQL dengan
createOrReplaceTempView; beri namadfdanwalk_dfmasing-masing. - Pada string
join_sql, setel tabel kiri kedfdan tabel kanan kewalk_df - Panggil
spark.sql()pada stringjoin_sqluntuk menjalankan join.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Register dataframes as tables
____.createOrReplaceTempView(____)
____.createOrReplaceTempView(____)
# SQL to join dataframes
join_sql = """
SELECT
*
FROM ____
LEFT JOIN ____
ON df.longitude = walk_df.longitude
AND df.latitude = walk_df.latitude
"""
# Perform sql join
joined_df = spark.sql(____)