Menggabungkan DataFrame
Dalam dua bab berikutnya, Anda akan membangun sebuah model yang memprediksi apakah sebuah penerbangan akan mengalami keterlambatan berdasarkan data penerbangan yang telah kita gunakan. Model ini juga akan mencakup informasi tentang pesawat yang menerbangi rute tersebut, jadi langkah pertama adalah menggabungkan dua tabel: flights dan planes!
Latihan ini merupakan bagian dari kursus
Dasar-Dasar PySpark
Instruksi latihan
- Pertama, ubah nama kolom
yeardariplanesmenjadiplane_yearuntuk menghindari duplikasi nama kolom. - Buat DataFrame baru bernama
model_datadengan menggabungkan tabelflightsdanplanesmenggunakan kolomtailnumsebagai kunci.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Rename year column
planes = planes.withColumnRenamed(____)
# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")