ComenzarEmpieza gratis

Seleccionar características relevantes

En este ejercicio, identificarás las columnas redundantes en el conjunto de datos volunteer, y realizarás una selección de características en el conjunto de datos para devolver un DataFrame de las características relevantes.

Por ejemplo, si exploras el conjunto de datos volunteer en la consola, verás tres características relacionadas con la ubicación: locality, region, y postalcode. Contienen información relacionada, por lo que tendría sentido mantener solo una de las características.

Tómate un tiempo para examinar las funciones de volunteer en la consola, e intenta identificar las características redundantes.

Este ejercicio forma parte del curso

Preprocesamiento para machine learning en Python

Ver curso

Instrucciones de ejercicio

  • Crea una lista de nombres de columnas redundantes y guárdala en la variable to_drop:

    • De todas las características relacionadas con la localización, conserva solo postalcode.

    • Las características que han pasado por el proceso de ingeniería de características también son redundantes.

  • Elimina las columnas de la lista to_drop del conjunto de datos.

  • Imprime la página .head() de volunteer_subset para ver las columnas seleccionadas.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]

# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)

# Print out the head of volunteer_subset
print(____)
Editar y ejecutar código