Menggunakan penyaring teks untuk menghapus rekaman
Penting untuk banyak bertanya kepada klien dan meluangkan waktu memahami variabel Anda. Anda mengetahui bahwa Assumable mortgage adalah kejadian yang tidak lazim di industri properti dan klien Anda menyarankan untuk mengecualikannya. Pada latihan ini kita akan menggunakan isin() yang mirip dengan like() tetapi memungkinkan kita meneruskan daftar nilai untuk digunakan sebagai penyaring alih-alih satu nilai saja.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Gunakan
select()danshow()untuk memeriksa nilai unik pada kolom'ASSUMABLEMORTGAGE'dan buat daftaryes_valuesuntuk semua nilai yang mengandung string'Yes'. - Gunakan
~df['ASSUMABLEMORTGAGE'],isin(), dan.isNull()untuk membuat penyaring NOT guna menghapus rekaman yang memuat nilai yang sesuai dalam daftaryes_valuesserta mempertahankan rekaman dengan nilai null. Simpan penyaring ini dalam variabeltext_filter. - Gunakan
where()untuk menerapkantext_filterkedf. - Cetak jumlah rekaman yang tersisa di
df.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Inspect unique values in the column 'ASSUMABLEMORTGAGE'
df.____([____]).distinct().____()
# List of possible values containing 'yes'
yes_values = [____, ____]
# Filter the text values out of df but keep null values
text_filter = ~df['ASSUMABLEMORTGAGE'].isin(____) | df['ASSUMABLEMORTGAGE'].isNull()
df = df.____(text_filter)
# Print count of remaining records
print(____.____())