ComeçarComece de graça

Reduzindo o risco de identificação com generalização

Neste exercício, você vai aplicar generalização no conjunto de dados IBM HR Analytics Employee Attrition & Performance.

Mais especificamente, você vai transformar a variável monthly_income em uma coluna binária. O limite usado para a transformação será o valor médio dos salários, arredondado. Os novos valores serão 0 para quem for menor ou igual à média inteira e 1 para quem for maior.

O conjunto de dados está carregado como um DataFrame do pandas, hr.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Instruções do exercício

  • Calcule o valor médio da coluna monthly_income usando .mean() e arredonde para um inteiro. Salve como mean_income.
  • Aplique uma função lambda em hr['monthly_income'] para generalizar as rendas: 0 para valores menores ou iguais a mean_income e 1 para valores maiores.
  • Explore as cinco primeiras linhas do DataFrame resultante hr.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Editar e executar o código