Join di Spark SQL
Terkadang menulis join yang kompleks jauh lebih mudah dilakukan dalam SQL. Pada latihan ini, kita akan mulai dengan kunci join yang sudah memiliki format dan presisi yang sama, tetapi kita akan menggunakan SparkSQL untuk melakukan proses join.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur dengan PySpark
Instruksi latihan
- Daftarkan DataFrame sebagai tabel SparkSQL dengan
createOrReplaceTempView; beri namadfdanwalk_dfmasing-masing. - Pada string
join_sql, setel tabel kiri kedfdan tabel kanan kewalk_df - Panggil
spark.sql()pada stringjoin_sqluntuk menjalankan join.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Register dataframes as tables
____.createOrReplaceTempView(____)
____.createOrReplaceTempView(____)
# SQL to join dataframes
join_sql = """
SELECT
*
FROM ____
LEFT JOIN ____
ON df.longitude = walk_df.longitude
AND df.latitude = walk_df.latitude
"""
# Perform sql join
joined_df = spark.sql(____)