Seleccionar el conjunto de datos ideal
Ahora vamos a deshacernos de algunas de las características innecesarias del conjunto de datos ufo. Como la columna country se ha codificado como country_enc, puedes seleccionarla y eliminar las demás columnas relacionadas con la ubicación: city, country, lat, long, y state.
Has diseñado las columnas month y year, por lo que ya no necesitas las columnas date o recorded. También has normalizado la columna seconds como seconds_log, por lo que puedes eliminar seconds y minutes.
Has vectorizado desc, por lo que se puede eliminar. Por ahora seguirás type.
También puedes deshacerte de la columna length_of_time, que es innecesaria después de extraer minutes.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones del ejercicio
- Haz una lista de todas las columnas a eliminar,
to_drop. - Elimina estas columnas de
ufo. - Utiliza la función
words_to_filter()que creaste anteriormente; pasavocab,vec.vocabulary_,desc_tfidf, y mantén las palabras superiores4como último parámetro.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)