Menggabungkan flights dengan bandara tujuannya
Anda baru dipekerjakan sebagai data engineer di sebuah perusahaan perjalanan global. Tugas pertama Anda adalah membantu perusahaan meningkatkan operasional dengan menganalisis data penerbangan. Anda memiliki dua himpunan data di workspace: satu berisi detail penerbangan (flights) dan satu lagi berisi informasi tentang bandara tujuan (airports), keduanya sudah tersedia di workspace Anda..
Tujuan Anda? Menggabungkan kedua himpunan data ini untuk membuat himpunan data yang kuat yang mengaitkan setiap penerbangan dengan bandara tujuannya.
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Periksa DataFrame
airports. Perhatikan kolom kunci mana yang memungkinkan Anda menggabungkanairportske tabelflights. - Gabungkan
flightsdengan DataFrameairportspada kolom"dest". Simpan hasilnya sebagaiflights_with_airports. - Periksa kembali
flights_with_airports. Perhatikan informasi baru yang telah ditambahkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Examine the data
airports.____()
# .withColumnRenamed() renames the "faa" column to "dest"
airports = airports.withColumnRenamed("faa", "dest")
# Join the DataFrames
flights_with_airports = ____
# Examine the new DataFrame
flights_with_airports.____