ComeçarComece de graça

Amostragem da melhor distribuição contínua

A amostragem aleatória a partir de uma distribuição de probabilidade bem ajustada ajuda a manter a privacidade. Ao mesmo tempo, permite que partes autorizadas conduzam uma análise estatística precisa dos dados.

Neste exercício, você vai anonimizar a coluna monthly_income do conjunto de dados da IBM. Na lição anterior, você determinou que a distribuição contínua exponnorm é a que melhor se ajusta. Use-a para modelar as rendas.

O conjunto de dados está disponível como hr.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Instruções do exercício

  • Importe o módulo stats do pacote scipy.
  • Ajuste a distribuição exponnorm à variável contínua monthly_income para obter os parâmetros da distribuição e, depois, gerar as amostras.
  • Amostre da distribuição exponnorm e substitua monthly_income usando o método .rvs(). Especifique o tamanho (size) igual ao comprimento da coluna.
  • Arredonde os salários para o inteiro mais próximo.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import stats from scipy
____

# Fit the exponnorm distribution to the continuous variable monthly income
params = ____

# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____

# Round the salaries to their closest integer
hr['monthly_income'] = ____

# See the resulting dataset
print(hr.head())
Editar e executar o código