MulaiMulai sekarang secara gratis

Join di Spark SQL

Terkadang menulis join yang kompleks jauh lebih mudah dilakukan dalam SQL. Pada latihan ini, kita akan mulai dengan kunci join yang sudah memiliki format dan presisi yang sama, tetapi kita akan menggunakan SparkSQL untuk melakukan proses join.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Daftarkan DataFrame sebagai tabel SparkSQL dengan createOrReplaceTempView; beri nama df dan walk_df masing-masing.
  • Pada string join_sql, setel tabel kiri ke df dan tabel kanan ke walk_df
  • Panggil spark.sql() pada string join_sql untuk menjalankan join.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Register dataframes as tables
____.createOrReplaceTempView(____)
____.createOrReplaceTempView(____)

# SQL to join dataframes
join_sql = 	"""
			SELECT 
				*
			FROM ____
			LEFT JOIN ____
			ON df.longitude = walk_df.longitude
			AND df.latitude = walk_df.latitude
			"""
# Perform sql join
joined_df = spark.sql(____)
Edit dan Jalankan Kode