Memilih
Varian Spark dari SELECT di SQL adalah metode .select(). Metode ini menerima beberapa argumen — satu untuk setiap kolom yang ingin Anda pilih. Argumen ini bisa berupa nama kolom sebagai string (satu untuk setiap kolom) atau objek kolom (menggunakan sintaks df.colName). Saat Anda meneruskan objek kolom, Anda dapat melakukan operasi seperti penjumlahan atau pengurangan pada kolom untuk mengubah data di dalamnya, mirip dengan di .withColumn().
Perbedaan antara metode .select() dan .withColumn() adalah .select() hanya mengembalikan kolom yang Anda tentukan, sedangkan .withColumn() mengembalikan semua kolom pada DataFrame ditambah kolom yang Anda definisikan. Sering kali sebaiknya Anda menghapus kolom yang tidak diperlukan di awal sebuah operasi agar tidak membawa-bawa data ekstra saat melakukan wrangling. Dalam kasus ini, Anda akan menggunakan .select() dan bukan .withColumn().
Ingat, sebuah SparkSession bernama spark sudah tersedia di workspace Anda, bersama dengan Spark DataFrame flights.
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
- Pilih kolom
"tailnum","origin", dan"dest"dariflightsdengan meneruskan nama kolom sebagai string. Simpan sebagaiselected1. - Pilih kolom
"origin","dest", dan"carrier"menggunakan sintaksdf.colNamelalu saring hasilnya menggunakan kedua filter yang sudah disediakan untuk Anda (filterAdanfilterB) agar hanya menyisakan penerbangan dari SEA ke PDX. Simpan sebagaiselected2.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Select the first set of columns
selected1 = flights.select("____", "____", "____")
# Select the second set of columns
temp = flights.select(____.____, ____.____, ____.____)
# Define first filter
filterA = flights.origin == "SEA"
# Define second filter
filterB = flights.dest == "PDX"
# Filter the data, first by filterA then by filterB
selected2 = temp.filter(____).filter(____)