Memilih himpunan data yang ideal
Sekarang saatnya menghilangkan beberapa fitur yang tidak diperlukan dalam himpunan data ufo. Karena kolom country telah dikodekan sebagai country_enc, Anda dapat memilihnya dan menghapus kolom lain yang terkait lokasi: city, country, lat, long, dan state.
Anda telah merekayasa kolom month dan year, sehingga Anda tidak lagi memerlukan kolom date atau recorded. Anda juga telah menstandarkan kolom seconds menjadi seconds_log, sehingga Anda dapat menghapus seconds dan minutes.
Anda telah memvektorisasi desc, sehingga kolom tersebut dapat dihapus. Untuk saat ini Anda akan tetap menyimpan type.
Anda juga dapat menghapus kolom length_of_time, yang tidak diperlukan setelah mengekstrak minutes.
Latihan ini adalah bagian dari kursus
Prapemrosesan untuk Machine Learning di Python
Petunjuk latihan
- Buat daftar semua kolom yang akan dihapus,
to_drop. - Hapus kolom-kolom ini dari
ufo. - Gunakan fungsi
words_to_filter()yang telah Anda buat sebelumnya; berikanvocab,vec.vocabulary_,desc_tfidf, dan simpan4kata teratas sebagai parameter terakhir.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)