ComeçarComece de graça

Usando hierarquias para dados categóricos

Neste exercício, você vai criar e usar hierarquias para aplicar generalização de dados na coluna bachelors do conjunto de dados US Adult Income.

Um dicionário inicial com as hierarquias está disponível como hierarchies. Ele contém três categorias para os tipos de escolaridade: Primary, Secondary e Higher; cada uma tem uma lista dos valores de escolaridade correspondentes nos dados. Fique à vontade para explorá-lo no console interativo.

Vamos criar um novo dicionário que vai armazenar as informações de escolaridade generalizadas e será usado para substituir os valores originais.

O conjunto de dados está disponível como income_df.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Instruções do exercício

  • Inicialize education_hierarchy como um dicionário vazio.
  • Complete o loop interno para atribuir o tipo de escolaridade key como valor. Por exemplo, {'Some-college': 'Higher education'}.
  • Aplique a generalização da hierarquia de escolaridade à coluna bachelors, atribuindo o resultado à nova coluna bachelors_generalized.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Initialize dictionary for each education category value
education_hierarchy = ____

# Create hierachy for each of the education category values
for (key,education_values) in hierarchies.items():
    for education in education_values:
        education_hierarchy[education] = ____

# Apply education_hierarchy generalization to bachelors
income_df['bachelors_generalized'] = ____

# See resulting dataset
print(income_df.head())
Editar e executar o código