Menghapus daftar kolom
Himpunan data kita kaya akan banyak fitur, tetapi tidak semuanya bernilai. Ada banyak yang akan sulit dirapikan menjadi sesuatu yang berguna. Untuk saat ini, mari hapus kolom apa pun yang tidak langsung berguna dengan menjatuhkannya.
'STREETNUMBERNUMERIC': Nomor alamat pos pada rumah'FIREPLACES': Jumlah perapian di rumah'LOTSIZEDIMENSIONS': Teks bebas yang menggambarkan bentuk/ukuran lahan'LISTTYPE': Sekumpulan nilai jenis penjualan'ACRES': Luas lahan dalam nilai numerik
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Baca daftar deskripsi kolom di atas dan jelajahi 30 nilai teratasnya dengan
show(), dataframe sudah difilter ke kolom yang tercantum sebagaidf - Buat daftar dua kolom untuk dihapus berdasarkan kurangnya relevansi terhadap prediksi harga rumah bernama
cols_to_drop. Ingat bahwa komputer hanya menafsirkan angka secara eksplisit dan tidak memahami konteks. - Gunakan fungsi
drop()untuk menghapus kolom dalam daftarcols_to_dropdari dataframedf.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Show top 30 records
df.____(____)
# List of columns to remove from dataset
cols_to_drop = [____, ____]
# Drop columns in list
df = df.____(____)