Mulai sekarangMulai gratis

Menggabungkan DataFrame

Dalam dua bab berikutnya, Anda akan membangun sebuah model yang memprediksi apakah sebuah penerbangan akan mengalami keterlambatan berdasarkan data penerbangan yang telah kita gunakan. Model ini juga akan mencakup informasi tentang pesawat yang menerbangi rute tersebut, jadi langkah pertama adalah menggabungkan dua tabel: flights dan planes!

Latihan ini merupakan bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Instruksi latihan

  • Pertama, ubah nama kolom year dari planes menjadi plane_year untuk menghindari duplikasi nama kolom.
  • Buat DataFrame baru bernama model_data dengan menggabungkan tabel flights dan planes menggunakan kolom tailnum sebagai kunci.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Rename year column
planes = planes.withColumnRenamed(____)

# Join the DataFrames
model_data = flights.join(____, on=____, how="leftouter")
Edit dan Jalankan Kode