İdeal veri kümesini seçmek

Şimdi ufo veri kümesindeki bazı gereksiz özelliklerden kurtulma zamanı. country sütunu country_enc olarak kodlandığı için, bunu seçip konumla ilgili diğer sütunları düşürebilirsin: city, country, lat, long ve state.

month ve year sütunlarını ürettin, bu yüzden artık date veya recorded sütunlarına ihtiyacın yok. Ayrıca seconds sütununu seconds_log olarak standartlaştırdın, dolayısıyla seconds ve minutes sütunlarını da kaldırabilirsin.

desc sütununu vektörleştirdin, bu yüzden kaldırılabilir. Şimdilik type kalsın.

Ayrıca length_of_time sütununu da kaldırabilirsin; minutes çıkarıldıktan sonra gereksiz hale geliyor.

Bu egzersiz

Python'da Machine Learning için Ön İşleme

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

Kaldırılacak tüm sütunların bir listesini oluştur: to_drop.
Bu sütunları ufo içinden düş.
Daha önce oluşturduğun words_to_filter() fonksiyonunu kullan; sırayla vocab, vec.vocabulary_, desc_tfidf argümanlarını ver ve son parametre olarak en iyi 4 kelimeyi tut.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Kodu Düzenle ve Çalıştır