Seleccionar características relevantes
En este ejercicio, identificarás las columnas redundantes en el conjunto de datos volunteer
, y realizarás una selección de características en el conjunto de datos para devolver un DataFrame de las características relevantes.
Por ejemplo, si exploras el conjunto de datos volunteer
en la consola, verás tres características relacionadas con la ubicación: locality
, region
, y postalcode
. Contienen información relacionada, por lo que tendría sentido mantener solo una de las características.
Tómate un tiempo para examinar las funciones de volunteer
en la consola, e intenta identificar las características redundantes.
Este ejercicio forma parte del curso
Preprocesamiento para machine learning en Python
Instrucciones de ejercicio
Crea una lista de nombres de columnas redundantes y guárdala en la variable
to_drop
:De todas las características relacionadas con la localización, conserva solo
postalcode
.Las características que han pasado por el proceso de ingeniería de características también son redundantes.
Elimina las columnas de la lista
to_drop
del conjunto de datos.Imprime la página
.head()
devolunteer_subset
para ver las columnas seleccionadas.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)