Seleccionar el conjunto de datos ideal

Ahora vamos a deshacernos de algunas de las características innecesarias del conjunto de datos ufo. Como la columna country se ha codificado como country_enc, puedes seleccionarla y eliminar las demás columnas relacionadas con la ubicación: city, country, lat, long, y state.

Has diseñado las columnas month y year, por lo que ya no necesitas las columnas date o recorded. También has normalizado la columna seconds como seconds_log, por lo que puedes eliminar seconds y minutes.

Has vectorizado desc, por lo que se puede eliminar. Por ahora seguirás type.

También puedes deshacerte de la columna length_of_time, que es innecesaria después de extraer minutes.

Este ejercicio forma parte del curso

Preprocesamiento para machine learning en Python

Ver curso

Instrucciones del ejercicio

Haz una lista de todas las columnas a eliminar, to_drop.
Elimina estas columnas de ufo.
Utiliza la función words_to_filter() que creaste anteriormente; pasa vocab, vec.vocabulary_, desc_tfidf, y mantén las palabras superiores 4 como último parámetro.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Editar y ejecutar código