Memilih himpunan data yang ideal

Sekarang saatnya menghilangkan beberapa fitur yang tidak diperlukan dalam himpunan data ufo. Karena kolom country telah dikodekan sebagai country_enc, Anda dapat memilihnya dan menghapus kolom lain yang terkait lokasi: city, country, lat, long, dan state.

Anda telah merekayasa kolom month dan year, sehingga Anda tidak lagi memerlukan kolom date atau recorded. Anda juga telah menstandarkan kolom seconds menjadi seconds_log, sehingga Anda dapat menghapus seconds dan minutes.

Anda telah memvektorisasi desc, sehingga kolom tersebut dapat dihapus. Untuk saat ini Anda akan tetap menyimpan type.

Anda juga dapat menghapus kolom length_of_time, yang tidak diperlukan setelah mengekstrak minutes.

Latihan ini adalah bagian dari kursus

Prapemrosesan untuk Machine Learning di Python

Lihat Kursus

Petunjuk latihan

Buat daftar semua kolom yang akan dihapus, to_drop.
Hapus kolom-kolom ini dari ufo.
Gunakan fungsi words_to_filter() yang telah Anda buat sebelumnya; berikan vocab, vec.vocabulary_, desc_tfidf, dan simpan 4 kata teratas sebagai parameter terakhir.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Edit dan Jalankan Kode