Uso de jerarquías para datos categóricos
En este ejercicio, crearás y usarás jerarquías para aplicar generalización de datos en la columna bachelors del conjunto de datos US Adult Income.
Tienes un diccionario inicial con las jerarquías disponible como hierarchies. Contiene tres categorías para los tipos de educación: Primary, Secondary y Higher; cada una incluye una lista con los valores de educación correspondientes en los datos. Si quieres, explóralo en la consola interactiva.
Crearemos un diccionario nuevo que contendrá la información de educación generalizada y lo usaremos para reemplazar los valores originales.
El conjunto de datos está disponible como income_df.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Instrucciones del ejercicio
- Inicializa
education_hierarchycomo un diccionario vacío. - Completa el bucle interno para asignar el tipo de educación
keycomo valor. Por ejemplo,{'Some-college': 'Higher education'}. - Aplica la generalización de la jerarquía de educación a la columna
bachelors, asignando el resultado a la nueva columnabachelors_generalized.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())