İdeal veri kümesini seçmek
Şimdi ufo veri kümesindeki bazı gereksiz özelliklerden kurtulma zamanı. country sütunu country_enc olarak kodlandığı için, bunu seçip konumla ilgili diğer sütunları düşürebilirsin: city, country, lat, long ve state.
month ve year sütunlarını ürettin, bu yüzden artık date veya recorded sütunlarına ihtiyacın yok. Ayrıca seconds sütununu seconds_log olarak standartlaştırdın, dolayısıyla seconds ve minutes sütunlarını da kaldırabilirsin.
desc sütununu vektörleştirdin, bu yüzden kaldırılabilir. Şimdilik type kalsın.
Ayrıca length_of_time sütununu da kaldırabilirsin; minutes çıkarıldıktan sonra gereksiz hale geliyor.
Bu egzersiz
Python'da Machine Learning için Ön İşleme
kursunun bir parçasıdırEgzersiz talimatları
- Kaldırılacak tüm sütunların bir listesini oluştur:
to_drop. - Bu sütunları
ufoiçinden düş. - Daha önce oluşturduğun
words_to_filter()fonksiyonunu kullan; sıraylavocab,vec.vocabulary_,desc_tfidfargümanlarını ver ve son parametre olarak en iyi4kelimeyi tut.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)