MulaiMulai sekarang secara gratis

Menggabungkan DataFrame

Dalam dua bab berikutnya, Anda akan membangun sebuah model yang memprediksi apakah sebuah penerbangan akan mengalami keterlambatan berdasarkan data penerbangan yang telah kita gunakan. Model ini juga akan mencakup informasi tentang pesawat yang menerbangi rute tersebut, jadi langkah pertama adalah menggabungkan dua tabel: flights dan planes!

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Pertama, ubah nama kolom year dari planes menjadi plane_year untuk menghindari duplikasi nama kolom.
  • Buat DataFrame baru bernama model_data dengan menggabungkan tabel flights dan planes menggunakan kolom tailnum sebagai kunci.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Edit dan Jalankan Kode