Amostragem da melhor distribuição contínua
A amostragem aleatória a partir de uma distribuição de probabilidade bem ajustada ajuda a manter a privacidade. Ao mesmo tempo, permite que partes autorizadas conduzam uma análise estatística precisa dos dados.
Neste exercício, você vai anonimizar a coluna monthly_income do conjunto de dados da IBM. Na lição anterior, você determinou que a distribuição contínua exponnorm é a que melhor se ajusta. Use-a para modelar as rendas.
O conjunto de dados está disponível como hr.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Importe o módulo
statsdo pacotescipy. - Ajuste a distribuição
exponnormà variável contínuamonthly_incomepara obter os parâmetros da distribuição e, depois, gerar as amostras. - Amostre da distribuição
exponnorme substituamonthly_incomeusando o método.rvs(). Especifique o tamanho (size) igual ao comprimento da coluna. - Arredonde os salários para o inteiro mais próximo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import stats from scipy
____
# Fit the exponnorm distribution to the continuous variable monthly income
params = ____
# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____
# Round the salaries to their closest integer
hr['monthly_income'] = ____
# See the resulting dataset
print(hr.head())