Aan de slagGa gratis aan de slag

De ideale gegevensset selecteren

Tijd om wat overbodige features in de ufo-gegevensset te verwijderen. Omdat de kolom country is gecodeerd als country_enc, kun je die selecteren en de andere locatiegerelateerde kolommen droppen: city, country, lat, long en state.

Je hebt de kolommen month en year geconstrueerd, dus heb je de kolommen date en recorded niet meer nodig. Je hebt de kolom seconds gestandaardiseerd als seconds_log, dus je kunt seconds en minutes droppen.

Je hebt desc gevectoriseerd, dus die kan weg. Voor nu houd je type.

Je kunt ook de kolom length_of_time verwijderen, die is niet meer nodig nadat je minutes hebt geëxtraheerd.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Maak een lijst met alle kolommen die je wilt droppen, to_drop.
  • Drop deze kolommen uit ufo.
  • Gebruik de functie words_to_filter() die je eerder hebt gemaakt; geef vocab, vec.vocabulary_, desc_tfidf door en houd de bovenste 4 woorden als laatste parameter.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)
Code bewerken en uitvoeren