MulaiMulai sekarang secara gratis

Menggunakan penyaring teks untuk menghapus rekaman

Penting untuk banyak bertanya kepada klien dan meluangkan waktu memahami variabel Anda. Anda mengetahui bahwa Assumable mortgage adalah kejadian yang tidak lazim di industri properti dan klien Anda menyarankan untuk mengecualikannya. Pada latihan ini kita akan menggunakan isin() yang mirip dengan like() tetapi memungkinkan kita meneruskan daftar nilai untuk digunakan sebagai penyaring alih-alih satu nilai saja.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan select() dan show() untuk memeriksa nilai unik pada kolom 'ASSUMABLEMORTGAGE' dan buat daftar yes_values untuk semua nilai yang mengandung string 'Yes'.
  • Gunakan ~df['ASSUMABLEMORTGAGE'], isin(), dan .isNull() untuk membuat penyaring NOT guna menghapus rekaman yang memuat nilai yang sesuai dalam daftar yes_values serta mempertahankan rekaman dengan nilai null. Simpan penyaring ini dalam variabel text_filter.
  • Gunakan where() untuk menerapkan text_filter ke df.
  • Cetak jumlah rekaman yang tersisa di df.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Inspect unique values in the column 'ASSUMABLEMORTGAGE'
df.____([____]).distinct().____()

# List of possible values containing 'yes'
yes_values = [____, ____]

# Filter the text values out of df but keep null values
text_filter = ~df['ASSUMABLEMORTGAGE'].isin(____) | df['ASSUMABLEMORTGAGE'].isNull()
df = df.____(text_filter)

# Print count of remaining records
print(____.____())
Edit dan Jalankan Kode