Explore a distribuição dos dados
Quando queremos anonimizar um conjunto de dados amostrando dados de forma bem realista, precisamos adquirir algum conhecimento de domínio e estatístico sobre os dados. Como vimos, encontrar a distribuição de probabilidade da coluna de interesse é essencial.
Neste exercício, você vai explorar a coluna business_travel de uma versão simplificada do conjunto de dados de RH da IBM.
O DataFrame foi importado como hr e o numpy como np. Como mencionado no capítulo anterior, o pandas foi importado como pd para este e os demais capítulos do curso.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the absolute frequencies of each unique value
print(____)