Selezionare l'insieme di dati ideale

Ora è il momento di eliminare alcune funzionalità non necessarie nell'insieme di dati ufo. Poiché la colonna country è stata codificata come country_enc, puoi selezionarla ed eliminare le altre colonne legate alla posizione: city, country, lat, long e state.

Hai creato le colonne month e year, quindi non ti servono più le colonne date o recorded. Hai anche standardizzato la colonna seconds come seconds_log, quindi puoi eliminare seconds e minutes.

Hai vettorializzato desc, quindi può essere rimossa. Per ora manterrai type.

Puoi anche eliminare la colonna length_of_time, che non serve più dopo aver estratto minutes.

Questo esercizio fa parte del corso

Preprocessing per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

Crea un elenco di tutte le colonne da eliminare, to_drop.
Elimina queste colonne da ufo.
Usa la funzione words_to_filter() che hai creato in precedenza; passa vocab, vec.vocabulary_, desc_tfidf e, come ultimo parametro, mantieni le prime 4 parole.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Modifica ed esegui il codice