MulaiMulai sekarang secara gratis

Penggabungan II

Di PySpark, penggabungan dilakukan menggunakan metode DataFrame .join(). Metode ini menerima tiga argumen. Argumen pertama adalah DataFrame kedua yang ingin Anda gabungkan dengan yang pertama. Argumen kedua, on, adalah nama kolom kunci sebagai string. Nama kolom kunci harus sama di setiap tabel. Argumen ketiga, how, menentukan jenis penggabungan yang akan dilakukan. Dalam kursus ini, kita selalu akan menggunakan nilai how="leftouter".

Himpunan data flights dan himpunan data baru bernama airports sudah tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Periksa DataFrame airports dengan memanggil .show(). Catat kolom kunci mana yang memungkinkan Anda menggabungkan airports dengan tabel flights.
  • Ubah nama kolom faa di airports menjadi dest dengan menetapkan kembali hasil airports.withColumnRenamed("faa", "dest") ke airports.
  • Gabungkan flights dengan DataFrame airports pada kolom dest dengan memanggil metode .join() pada flights. Simpan hasilnya sebagai flights_with_airports.
    • Argumen pertama harus DataFrame lain, yaitu airports.
    • Argumen on harus berisi kolom kunci.
    • Argumen how harus "leftouter".
  • Panggil .show() pada flights_with_airports untuk memeriksa data lagi. Catat informasi baru yang telah ditambahkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Examine the data
print(____)

# Rename the faa column
airports = ____

# Join the DataFrames
flights_with_airports = ____

# Examine the new DataFrame
print(____)
Edit dan Jalankan Kode