Preparando dados de funcionários para liberação segura
Ao lidar com dados reais, você precisa garantir que não haja como as informações pessoais dos seus clientes ou de outras pessoas serem rastreadas ou expostas. Neste exercício, você vai usar uma versão simplificada do conjunto de dados IBM HR Analytics Employee para praticar técnicas de supressão e generalização.
Para evitar o vazamento de informações sobre o conjunto de dados, você vai substituir os nomes das colunas por números.
O DataFrame foi carregado como hr. Use o console para explorá-lo. numpy foi importado como np.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1)
# Drop the rows with NaN values
df_cleaned = ____