Mengekstrak Teks Menjadi Fitur Baru
Garasi merupakan pertimbangan penting untuk rumah di Minnesota, tempat sebagian besar orang memiliki mobil dan salju merepotkan untuk dibersihkan dari mobil yang diparkir di luar. Jenis garasi juga penting—bisakah Anda mencapai mobil tanpa harus menghadapi udara dingin atau tidak? Mari kita membuat sebuah fitur has_attached_garage yang menunjukkan apakah garasi menyatu dengan rumah atau tidak.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Impor fungsi yang diperlukan
when()daripyspark.sql.functions. - Buat kondisi pencocokan string menggunakan
like()untuk mencari pola stringAttached Garagedidf['GARAGEDESCRIPTION']dan gunakan wildcard%agar dapat cocok di mana saja dalam kolom tersebut. - Dengan cara yang sama, buat kondisi lain menggunakan
like()untuk mencari pola stringDetached Garagedidf['GARAGEDESCRIPTION']dan gunakan wildcard%agar dapat cocok di mana saja dalam kolom tersebut. - Buat kolom baru
has_attached_garagemenggunakanwhen()untuk memberikan nilai 1 jika garasi menyatu (attached), nol jika terpisah (detached), dan gunakanotherwise()untuk memberikan null denganNonejika bukan keduanya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import needed functions
____ ____ ____ ____
# Create boolean conditions for string matches
has_attached_garage = df[____].____(____)
has_detached_garage = df[____].____(____)
# Conditional value assignment
df = df.withColumn(____, (____(____, 1)
.____(____, 0)
.____(____)))
# Inspect results
df[['GARAGEDESCRIPTION', 'has_attached_garage']].show(truncate=100)