Memilih fitur yang relevan
Dalam latihan ini, Anda akan mengidentifikasi kolom yang redundan dalam himpunan data volunteer, lalu melakukan seleksi fitur pada himpunan data tersebut untuk mengembalikan DataFrame berisi fitur-fitur yang relevan.
Sebagai contoh, jika Anda menelusuri himpunan data volunteer di konsol, Anda akan melihat tiga fitur yang terkait lokasi: locality, region, dan postalcode. Ketiganya memuat informasi yang saling berkaitan, sehingga masuk akal untuk menyisakan hanya satu fitur saja.
Luangkan waktu untuk menelaah fitur-fitur volunteer di konsol, dan cobalah mengidentifikasi fitur-fitur yang redundan.
Latihan ini adalah bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Petunjuk latihan
- Buat daftar nama kolom yang redundan dan simpan dalam variabel
to_drop:- Dari semua fitur terkait lokasi, sisakan hanya
postalcode. - Fitur-fitur yang telah melalui proses rekayasa fitur juga bersifat redundan.
- Dari semua fitur terkait lokasi, sisakan hanya
- Hapus kolom-kolom dalam daftar
to_dropdari himpunan data. - Cetak
.head()darivolunteer_subsetuntuk melihat kolom yang terpilih.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)