MulaiMulai sekarang secara gratis

Memilih

Varian Spark dari SELECT di SQL adalah metode .select(). Metode ini menerima beberapa argumen — satu untuk setiap kolom yang ingin Anda pilih. Argumen ini bisa berupa nama kolom sebagai string (satu untuk setiap kolom) atau objek kolom (menggunakan sintaks df.colName). Saat Anda meneruskan objek kolom, Anda dapat melakukan operasi seperti penjumlahan atau pengurangan pada kolom untuk mengubah data di dalamnya, mirip dengan di .withColumn().

Perbedaan antara metode .select() dan .withColumn() adalah .select() hanya mengembalikan kolom yang Anda tentukan, sedangkan .withColumn() mengembalikan semua kolom pada DataFrame ditambah kolom yang Anda definisikan. Sering kali sebaiknya Anda menghapus kolom yang tidak diperlukan di awal sebuah operasi agar tidak membawa-bawa data ekstra saat melakukan wrangling. Dalam kasus ini, Anda akan menggunakan .select() dan bukan .withColumn().

Ingat, sebuah SparkSession bernama spark sudah tersedia di workspace Anda, bersama dengan Spark DataFrame flights.

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

  • Pilih kolom "tailnum", "origin", dan "dest" dari flights dengan meneruskan nama kolom sebagai string. Simpan sebagai selected1.
  • Pilih kolom "origin", "dest", dan "carrier" menggunakan sintaks df.colName lalu saring hasilnya menggunakan kedua filter yang sudah disediakan untuk Anda (filterA dan filterB) agar hanya menyisakan penerbangan dari SEA ke PDX. Simpan sebagai selected2.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Select the first set of columns
selected1 = flights.select("____", "____", "____")

# Select the second set of columns
temp = flights.select(____.____, ____.____, ____.____)

# Define first filter
filterA = flights.origin == "SEA"

# Define second filter
filterB = flights.dest == "PDX"

# Filter the data, first by filterA then by filterB
selected2 = temp.filter(____).filter(____)
Edit dan Jalankan Kode