IniziaInizia gratis

Selezionare l'insieme di dati ideale

Ora è il momento di eliminare alcune funzionalità non necessarie nell'insieme di dati ufo. Poiché la colonna country è stata codificata come country_enc, puoi selezionarla ed eliminare le altre colonne legate alla posizione: city, country, lat, long e state.

Hai creato le colonne month e year, quindi non ti servono più le colonne date o recorded. Hai anche standardizzato la colonna seconds come seconds_log, quindi puoi eliminare seconds e minutes.

Hai vettorializzato desc, quindi può essere rimossa. Per ora manterrai type.

Puoi anche eliminare la colonna length_of_time, che non serve più dopo aver estratto minutes.

Questo esercizio fa parte del corso

Preprocessing per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un elenco di tutte le colonne da eliminare, to_drop.
  • Elimina queste colonne da ufo.
  • Usa la funzione words_to_filter() che hai creato in precedenza; passa vocab, vec.vocabulary_, desc_tfidf e, come ultimo parametro, mantieni le prime 4 parole.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)
Modifica ed esegui il codice