De ideale gegevensset selecteren
Tijd om wat overbodige features in de ufo-gegevensset te verwijderen. Omdat de kolom country is gecodeerd als country_enc, kun je die selecteren en de andere locatiegerelateerde kolommen droppen: city, country, lat, long en state.
Je hebt de kolommen month en year geconstrueerd, dus heb je de kolommen date en recorded niet meer nodig. Je hebt de kolom seconds gestandaardiseerd als seconds_log, dus je kunt seconds en minutes droppen.
Je hebt desc gevectoriseerd, dus die kan weg. Voor nu houd je type.
Je kunt ook de kolom length_of_time verwijderen, die is niet meer nodig nadat je minutes hebt geëxtraheerd.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Maak een lijst met alle kolommen die je wilt droppen,
to_drop. - Drop deze kolommen uit
ufo. - Gebruik de functie
words_to_filter()die je eerder hebt gemaakt; geefvocab,vec.vocabulary_,desc_tfidfdoor en houd de bovenste4woorden als laatste parameter.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)