Selezionare l'insieme di dati ideale
Ora è il momento di eliminare alcune funzionalità non necessarie nell'insieme di dati ufo. Poiché la colonna country è stata codificata come country_enc, puoi selezionarla ed eliminare le altre colonne legate alla posizione: city, country, lat, long e state.
Hai creato le colonne month e year, quindi non ti servono più le colonne date o recorded. Hai anche standardizzato la colonna seconds come seconds_log, quindi puoi eliminare seconds e minutes.
Hai vettorializzato desc, quindi può essere rimossa. Per ora manterrai type.
Puoi anche eliminare la colonna length_of_time, che non serve più dopo aver estratto minutes.
Questo esercizio fa parte del corso
Preprocessing per il Machine Learning in Python
Istruzioni dell'esercizio
- Crea un elenco di tutte le colonne da eliminare,
to_drop. - Elimina queste colonne da
ufo. - Usa la funzione
words_to_filter()che hai creato in precedenza; passavocab,vec.vocabulary_,desc_tfidfe, come ultimo parametro, mantieni le prime4parole.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)