Reduzindo o risco de identificação com generalização
Neste exercício, você vai aplicar generalização no conjunto de dados IBM HR Analytics Employee Attrition & Performance.
Mais especificamente, você vai transformar a variável monthly_income em uma coluna binária. O limite usado para a transformação será o valor médio dos salários, arredondado. Os novos valores serão 0 para quem for menor ou igual à média inteira e 1 para quem for maior.
O conjunto de dados está carregado como um DataFrame do pandas, hr.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Calcule o valor médio da coluna
monthly_incomeusando.mean()e arredonde para um inteiro. Salve comomean_income. - Aplique uma função
lambdaemhr['monthly_income']para generalizar as rendas: 0 para valores menores ou iguais amean_incomee 1 para valores maiores. - Explore as cinco primeiras linhas do DataFrame resultante
hr.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)