Penggabungan II
Di PySpark, penggabungan dilakukan menggunakan metode DataFrame .join(). Metode ini menerima tiga argumen. Argumen pertama adalah DataFrame kedua yang ingin Anda gabungkan dengan yang pertama. Argumen kedua, on, adalah nama kolom kunci sebagai string. Nama kolom kunci harus sama di setiap tabel. Argumen ketiga, how, menentukan jenis penggabungan yang akan dilakukan. Dalam kursus ini, kita selalu akan menggunakan nilai how="leftouter".
Himpunan data flights dan himpunan data baru bernama airports sudah tersedia di workspace Anda.
Latihan ini merupakan bagian dari kursus
Dasar-Dasar PySpark
Instruksi latihan
- Periksa DataFrame
airportsdengan memanggil.show(). Catat kolom kunci mana yang memungkinkan Anda menggabungkanairportsdengan tabelflights. - Ubah nama kolom
faadiairportsmenjadidestdengan menetapkan kembali hasilairports.withColumnRenamed("faa", "dest")keairports. - Gabungkan
flightsdengan DataFrameairportspada kolomdestdengan memanggil metode.join()padaflights. Simpan hasilnya sebagaiflights_with_airports.- Argumen pertama harus DataFrame lain, yaitu
airports. - Argumen
onharus berisi kolom kunci. - Argumen
howharus"leftouter".
- Argumen pertama harus DataFrame lain, yaitu
- Panggil
.show()padaflights_with_airportsuntuk memeriksa data lagi. Catat informasi baru yang telah ditambahkan.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Examine the data
print(____)
# Rename the faa column
airports = ____
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
print(____)