MulaiMulai sekarang secara gratis

Mengekstrak Teks Menjadi Fitur Baru

Garasi merupakan pertimbangan penting untuk rumah di Minnesota, tempat sebagian besar orang memiliki mobil dan salju merepotkan untuk dibersihkan dari mobil yang diparkir di luar. Jenis garasi juga penting—bisakah Anda mencapai mobil tanpa harus menghadapi udara dingin atau tidak? Mari kita membuat sebuah fitur has_attached_garage yang menunjukkan apakah garasi menyatu dengan rumah atau tidak.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor fungsi yang diperlukan when() dari pyspark.sql.functions.
  • Buat kondisi pencocokan string menggunakan like() untuk mencari pola string Attached Garage di df['GARAGEDESCRIPTION'] dan gunakan wildcard % agar dapat cocok di mana saja dalam kolom tersebut.
  • Dengan cara yang sama, buat kondisi lain menggunakan like() untuk mencari pola string Detached Garage di df['GARAGEDESCRIPTION'] dan gunakan wildcard % agar dapat cocok di mana saja dalam kolom tersebut.
  • Buat kolom baru has_attached_garage menggunakan when() untuk memberikan nilai 1 jika garasi menyatu (attached), nol jika terpisah (detached), dan gunakan otherwise() untuk memberikan null dengan None jika bukan keduanya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import needed functions
____ ____ ____ ____

# Create boolean conditions for string matches
has_attached_garage = df[____].____(____)
has_detached_garage = df[____].____(____)

# Conditional value assignment 
df = df.withColumn(____, (____(____, 1)
                                          .____(____, 0)
                                          .____(____)))

# Inspect results
df[['GARAGEDESCRIPTION', 'has_attached_garage']].show(truncate=100)
Edit dan Jalankan Kode