Usando hierarquias para dados categóricos
Neste exercício, você vai criar e usar hierarquias para aplicar generalização de dados na coluna bachelors do conjunto de dados US Adult Income.
Um dicionário inicial com as hierarquias está disponível como hierarchies. Ele contém três categorias para os tipos de escolaridade: Primary, Secondary e Higher; cada uma tem uma lista dos valores de escolaridade correspondentes nos dados. Fique à vontade para explorá-lo no console interativo.
Vamos criar um novo dicionário que vai armazenar as informações de escolaridade generalizadas e será usado para substituir os valores originais.
O conjunto de dados está disponível como income_df.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Inicialize
education_hierarchycomo um dicionário vazio. - Complete o loop interno para atribuir o tipo de escolaridade
keycomo valor. Por exemplo,{'Some-college': 'Higher education'}. - Aplique a generalização da hierarquia de escolaridade à coluna
bachelors, atribuindo o resultado à nova colunabachelors_generalized.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Initialize dictionary for each education category value
education_hierarchy = ____
# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
for education in education_values:
education_hierarchy[education] = ____
# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____
# See resulting dataset
print(income_df.head())