MulaiMulai sekarang secara gratis

Melakukan join

Operasi data lain yang sangat umum adalah join. Join merupakan topik tersendiri, jadi dalam kursus ini kita hanya akan melihat join sederhana. Jika Anda ingin mempelajari lebih lanjut tentang join, Anda dapat melihat di sini.

Join akan menggabungkan dua tabel berbeda berdasarkan kolom yang sama-sama dimiliki. Kolom ini disebut key (kunci). Contoh kunci di sini mencakup kolom tailnum dan carrier dari tabel flights.

Sebagai contoh, misalkan Anda ingin mengetahui informasi tentang pesawat yang menerbangkan suatu penerbangan lebih dari sekadar nomor ekor. Informasi ini tidak ada di tabel flights karena pesawat yang sama melakukan banyak penerbangan selama dua tahun, sehingga menyertakan informasi ini di setiap baris akan menyebabkan banyak duplikasi. Untuk menghindarinya, Anda akan memiliki tabel kedua yang hanya memiliki satu baris untuk setiap pesawat dan kolom-kolomnya mencantumkan semua informasi tentang pesawat tersebut, termasuk nomor ekornya. Anda bisa menyebut tabel ini planes.

Ketika Anda melakukan join tabel flights dengan tabel informasi pesawat ini, Anda menambahkan semua kolom dari tabel planes ke tabel flights. Untuk mengisi kolom-kolom ini dengan informasi, Anda akan melihat nomor ekor dari tabel flights dan menemukan yang cocok di tabel planes, lalu menggunakan baris tersebut untuk mengisi semua kolom baru.

Kini Anda akan memiliki tabel yang jauh lebih besar daripada sebelumnya, tetapi sekarang setiap baris memiliki seluruh informasi tentang pesawat yang menerbangkan penerbangan itu!

Manakah dari pernyataan berikut yang tidak benar?

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga