ComenzarEmpieza gratis

Uso de jerarquías para datos categóricos

En este ejercicio, crearás y usarás jerarquías para aplicar generalización de datos en la columna bachelors del conjunto de datos US Adult Income.

Tienes un diccionario inicial con las jerarquías disponible como hierarchies. Contiene tres categorías para los tipos de educación: Primary, Secondary y Higher; cada una incluye una lista con los valores de educación correspondientes en los datos. Si quieres, explóralo en la consola interactiva.

Crearemos un diccionario nuevo que contendrá la información de educación generalizada y lo usaremos para reemplazar los valores originales.

El conjunto de datos está disponible como income_df.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Ver curso

Instrucciones del ejercicio

  • Inicializa education_hierarchy como un diccionario vacío.
  • Completa el bucle interno para asignar el tipo de educación key como valor. Por ejemplo, {'Some-college': 'Higher education'}.
  • Aplica la generalización de la jerarquía de educación a la columna bachelors, asignando el resultado a la nueva columna bachelors_generalized.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Initialize dictionary for each education category value
education_hierarchy = ____

# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
    for education in education_values:
        education_hierarchy[education] = ____

# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____

# See resulting dataset
print(income_df.head())
Editar y ejecutar código