Menggabungkan DataFrame
Dalam dua bab berikutnya, Anda akan membangun sebuah model yang memprediksi apakah sebuah penerbangan akan mengalami keterlambatan berdasarkan data penerbangan yang telah kita gunakan. Model ini juga akan mencakup informasi tentang pesawat yang menerbangi rute tersebut, jadi langkah pertama adalah menggabungkan dua tabel: flights dan planes!
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Pertama, ubah nama kolom
yeardariplanesmenjadiplane_yearuntuk menghindari duplikasi nama kolom. - Buat DataFrame baru bernama
model_datadengan menggabungkan tabelflightsdanplanesmenggunakan kolomtailnumsebagai kunci.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")