ComeçarComece de graça

Amostrando da mesma distribuição de probabilidade

Muitas organizações, como o U.S. Census, divulgam publicamente amostras de dados coletados sobre cidadãos. Esses conjuntos de dados são primeiro anonimizados com várias técnicas e, depois, uma pequena fração de 1% a 5% da amostra é liberada para permitir cálculos. Sabe-se que a amostragem preserva as características estatísticas dos dados, permitindo que as pessoas estudem e entendam a população subjacente.

Neste exercício, você vai anonimizar a coluna department do conjunto de dados de RH da IBM, amostrando a partir das distribuições do conjunto de dados original.

O conjunto de dados foi carregado como hr.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Instruções do exercício

  • Obtenha as frequências relativas de cada valor único na coluna department.
  • Extraia as probabilidades de counts e armazene-as em uma variável chamada distributions.
  • Faça a amostragem a partir das distribuições de probabilidade calculadas anteriormente. O tamanho da amostra deve ser o mesmo tamanho do conjunto de dados hr.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())
Editar e executar o código