MulaiMulai sekarang secara gratis

Memisah & Meledakkan

Mampu mengambil kolom gabungan seperti GARAGEDESCRIPTION dan mengolahnya menjadi sesuatu yang berguna merupakan proses yang cukup panjang. Akan membantu jika sejak awal Anda memahami nilai apa yang dapat diperoleh dengan memperluasnya. Pada contoh ini, kita akan mengonversi string menjadi array mirip daftar, melakukan explode, lalu meninjau nilai-nilai uniknya.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor fungsi yang diperlukan split() dan explode() dari pyspark.sql.functions
  • Gunakan split() untuk membuat kolom baru garage_list dengan memisahkan df['GARAGEDESCRIPTION'] pada ', ' yaitu koma diikuti spasi.
  • Buat catatan baru untuk setiap nilai di df['garage_list'] menggunakan explode() dan berikan ke kolom baru ex_garage_list
  • Gunakan distinct() untuk mendapatkan nilai unik dari ex_garage_list dan show 100 baris pertama, memotongnya pada 50 karakter agar nilainya dapat ditampilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import needed functions
____ ____ ____ ____, ____

# Convert string to list-like array
df = df.withColumn(____, ____(____, ____))

# Explode the values into new records
ex_df = df.withColumn(____, ____(____))

# Inspect the values
ex_df[['ex_garage_list']].____().____(100, ____=____)
Edit dan Jalankan Kode