ComenzarEmpieza gratis

Seleccionar el conjunto de datos ideal

Ahora vamos a deshacernos de algunas de las características innecesarias del conjunto de datos ufo. Como la columna country se ha codificado como country_enc, puedes seleccionarla y eliminar las demás columnas relacionadas con la ubicación: city, country, lat, long, y state.

Has diseñado las columnas month y year, por lo que ya no necesitas las columnas date o recorded. También has normalizado la columna seconds como seconds_log, por lo que puedes eliminar seconds y minutes.

Has vectorizado desc, por lo que se puede eliminar. Por ahora seguirás type.

También puedes deshacerte de la columna length_of_time, que es innecesaria después de extraer minutes.

Este ejercicio forma parte del curso

Preprocesamiento para machine learning en Python

Ver curso

Instrucciones de ejercicio

  • Haz una lista de todas las columnas a eliminar, to_drop.
  • Elimina estas columnas de ufo.
  • Utiliza la función words_to_filter() que creaste anteriormente; pasa vocab, vec.vocabulary_, desc_tfidf, y mantén las palabras superiores 4 como último parámetro.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)
Editar y ejecutar código