ComeçarComece de graça

Explore a distribuição dos dados

Quando queremos anonimizar um conjunto de dados amostrando dados de forma bem realista, precisamos adquirir algum conhecimento de domínio e estatístico sobre os dados. Como vimos, encontrar a distribuição de probabilidade da coluna de interesse é essencial.

Neste exercício, você vai explorar a coluna business_travel de uma versão simplificada do conjunto de dados de RH da IBM.

O DataFrame foi importado como hr e o numpy como np. Como mencionado no capítulo anterior, o pandas foi importado como pd para este e os demais capítulos do curso.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the absolute frequencies of each unique value
print(____)
Editar e executar o código