De ideale gegevensset selecteren

Tijd om wat overbodige features in de ufo-gegevensset te verwijderen. Omdat de kolom country is gecodeerd als country_enc, kun je die selecteren en de andere locatiegerelateerde kolommen droppen: city, country, lat, long en state.

Je hebt de kolommen month en year geconstrueerd, dus heb je de kolommen date en recorded niet meer nodig. Je hebt de kolom seconds gestandaardiseerd als seconds_log, dus je kunt seconds en minutes droppen.

Je hebt desc gevectoriseerd, dus die kan weg. Voor nu houd je type.

Je kunt ook de kolom length_of_time verwijderen, die is niet meer nodig nadat je minutes hebt geëxtraheerd.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

Maak een lijst met alle kolommen die je wilt droppen, to_drop.
Drop deze kolommen uit ufo.
Gebruik de functie words_to_filter() die je eerder hebt gemaakt; geef vocab, vec.vocabulary_, desc_tfidf door en houd de bovenste 4 woorden als laatste parameter.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Code bewerken en uitvoeren