Amostrando da mesma distribuição de probabilidade
Muitas organizações, como o U.S. Census, divulgam publicamente amostras de dados coletados sobre cidadãos. Esses conjuntos de dados são primeiro anonimizados com várias técnicas e, depois, uma pequena fração de 1% a 5% da amostra é liberada para permitir cálculos. Sabe-se que a amostragem preserva as características estatísticas dos dados, permitindo que as pessoas estudem e entendam a população subjacente.
Neste exercício, você vai anonimizar a coluna department do conjunto de dados de RH da IBM, amostrando a partir das distribuições do conjunto de dados original.
O conjunto de dados foi carregado como hr.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Obtenha as frequências relativas de cada valor único na coluna
department. - Extraia as probabilidades de
countse armazene-as em uma variável chamadadistributions. - Faça a amostragem a partir das distribuições de probabilidade calculadas anteriormente. O tamanho da amostra deve ser o mesmo tamanho do conjunto de dados
hr.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())