Memisah & Meledakkan
Mampu mengambil kolom gabungan seperti GARAGEDESCRIPTION dan mengolahnya menjadi sesuatu yang berguna merupakan proses yang cukup panjang. Akan membantu jika sejak awal Anda memahami nilai apa yang dapat diperoleh dengan memperluasnya. Pada contoh ini, kita akan mengonversi string menjadi array mirip daftar, melakukan explode, lalu meninjau nilai-nilai uniknya.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Impor fungsi yang diperlukan
split()danexplode()daripyspark.sql.functions - Gunakan
split()untuk membuat kolom barugarage_listdengan memisahkandf['GARAGEDESCRIPTION']pada ', ' yaitu koma diikuti spasi. - Buat catatan baru untuk setiap nilai di
df['garage_list']menggunakanexplode()dan berikan ke kolom baruex_garage_list - Gunakan
distinct()untuk mendapatkan nilai unik dariex_garage_listdanshow100 baris pertama, memotongnya pada 50 karakter agar nilainya dapat ditampilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import needed functions
____ ____ ____ ____, ____
# Convert string to list-like array
df = df.withColumn(____, ____(____, ____))
# Explode the values into new records
ex_df = df.withColumn(____, ____(____))
# Inspect the values
ex_df[['ex_garage_list']].____().____(100, ____=____)