Seleccionar el conjunto de datos ideal
Ahora vamos a deshacernos de algunas de las características innecesarias del conjunto de datos ufo
. Como la columna country
se ha codificado como country_enc
, puedes seleccionarla y eliminar las demás columnas relacionadas con la ubicación: city
, country
, lat
, long
, y state
.
Has diseñado las columnas month
y year
, por lo que ya no necesitas las columnas date
o recorded
. También has normalizado la columna seconds
como seconds_log
, por lo que puedes eliminar seconds
y minutes
.
Has vectorizado desc
, por lo que se puede eliminar. Por ahora seguirás type
.
También puedes deshacerte de la columna length_of_time
, que es innecesaria después de extraer minutes
.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones de ejercicio
- Haz una lista de todas las columnas a eliminar,
to_drop
. - Elimina estas columnas de
ufo
. - Utiliza la función
words_to_filter()
que creaste anteriormente; pasavocab
,vec.vocabulary_
,desc_tfidf
, y mantén las palabras superiores4
como último parámetro.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)