Penggabungan II
Di PySpark, penggabungan dilakukan menggunakan metode DataFrame .join(). Metode ini menerima tiga argumen. Argumen pertama adalah DataFrame kedua yang ingin Anda gabungkan dengan yang pertama. Argumen kedua, on, adalah nama kolom kunci sebagai string. Nama kolom kunci harus sama di setiap tabel. Argumen ketiga, how, menentukan jenis penggabungan yang akan dilakukan. Dalam kursus ini, kita selalu akan menggunakan nilai how="leftouter".
Himpunan data flights dan himpunan data baru bernama airports sudah tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Periksa DataFrame
airportsdengan memanggil.show(). Catat kolom kunci mana yang memungkinkan Anda menggabungkanairportsdengan tabelflights. - Ubah nama kolom
faadiairportsmenjadidestdengan menetapkan kembali hasilairports.withColumnRenamed("faa", "dest")keairports. - Gabungkan
flightsdengan DataFrameairportspada kolomdestdengan memanggil metode.join()padaflights. Simpan hasilnya sebagaiflights_with_airports.- Argumen pertama harus DataFrame lain, yaitu
airports. - Argumen
onharus berisi kolom kunci. - Argumen
howharus"leftouter".
- Argumen pertama harus DataFrame lain, yaitu
- Panggil
.show()padaflights_with_airportsuntuk memeriksa data lagi. Catat informasi baru yang telah ditambahkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)