Amostragem da melhor distribuição contínua

A amostragem aleatória a partir de uma distribuição de probabilidade bem ajustada ajuda a manter a privacidade. Ao mesmo tempo, permite que partes autorizadas conduzam uma análise estatística precisa dos dados.

Neste exercício, você vai anonimizar a coluna monthly_income do conjunto de dados da IBM. Na lição anterior, você determinou que a distribuição contínua exponnorm é a que melhor se ajusta. Use-a para modelar as rendas.

O conjunto de dados está disponível como hr.

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

Instruções do exercicio

Importe o módulo stats do pacote scipy.
Ajuste a distribuição exponnorm à variável contínua monthly_income para obter os parâmetros da distribuição e, depois, gerar as amostras.
Amostre da distribuição exponnorm e substitua monthly_income usando o método .rvs(). Especifique o tamanho (size) igual ao comprimento da coluna.
Arredonde os salários para o inteiro mais próximo.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import stats from scipy
____

# Fit the exponnorm distribution to the continuous variable monthly income
params = ____

# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____

# Round the salaries to their closest integer
hr['monthly_income'] = ____

# See the resulting dataset
print(hr.head())

Editar e Executar Código

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

AvançadoNível de habilidade

4.9+

Comece o curso gratuitamente

Prepare-se para aplicar técnicas de anonimização como supressão de dados, mascaramento, geração de dados sintéticos e generalização. Neste capítulo, você vai aprender a diferenciar informações pessoais identificáveis (PII) sensíveis e não sensíveis, quase-identificadores e o básico da GDPR. Você também verá exemplos reais do que pode dar errado se essas boas práticas não forem seguidas.

Exercise 1: O que é privado e por que isso importa?Exercise 2: Privacidade é poder Exercise 3: É sensível ou não sensível?Exercise 4: Supressão de atributos sensíveis Exercise 5: Mascaramento de dados e geração de dados com Faker Exercise 6: Mascarando PII sensível Exercise 7: Removendo nomes com faker Exercise 8: Anonimizando com generalização de dados Exercise 9: Reduzindo o risco de identificação com generalização Exercise 10: Agregação de dados e generalização de dados Exercise 11: Top e bottom coding em salários da Casa Branca

Descubra como anonimizar dados amostrando conjuntos de dados conforme a distribuição de probabilidade das colunas. Em seguida, você vai aprender a aplicar o modelo de privacidade k-anonymity para prevenir ataques de vinculação ou reidentificação e usar hierarquias para realizar generalização de dados em variáveis categóricas.

Exercise 1: Anonimizando dados categóricos Exercise 2: Explore a distribuição dos dados Exercise 3: Amostrando da mesma distribuição de probabilidade Exercise 4: Anonimizando dados contínuos Exercise 5: Distribuições diferentes Exercise 6: Amostragem da melhor distribuição contínua

Exercicio Atual

Exercise 7: Introdução ao k-anonymity Exercise 8: Atributos de privacidade Exercise 9: Generalizando em intervalos Exercise 10: Generalizando dados usando hierarquias Exercise 11: Usando hierarquias para dados categóricos Exercise 12: Aplicando k-anonimidade a um conjunto de dados

Aprenda sobre privacidade diferencial, o modelo usado por grandes empresas de tecnologia como Apple, Google e Uber. Neste capítulo, você vai explorar dados gerando histogramas privados e calculando médias privadas. Você também vai criar modelos de Machine Learning com privacidade diferencial que permitem às empresas aumentar a utilidade dos seus dados.

Exercise 1: Introdução à privacidade diferencial Exercise 2: Epsilon (ϵ): o número mágico Exercise 3: Histogramas com privacidade diferencial Exercise 4: Orçamentos de privacidade Exercise 5: Usando orçamentos de privacidade Exercise 6: Quando não há orçamento restante Exercise 7: Explorando dados com um controlador de orçamento de privacidade Exercise 8: Modelos de Machine Learning com privacidade diferencial Exercise 9: Construa um classificador com privacidade diferencial Exercise 10: Prevendo salários Exercise 11: Modelos de agrupamento com privacidade diferencial Exercise 12: Pré-processamento de dados Exercise 13: Segmentação de clientes

Neste capítulo final, você vai aprender a aplicar métodos de redução de dimensionalidade, como a Análise de Componentes Principais (PCA), para anonimizar grandes conjuntos de dados com muitas colunas. Em seguida, você usará o Faker para gerar conjuntos de dados realistas e consistentes e o scikit-learn para criar conjuntos de dados sintéticos que seguem uma distribuição normal. Por fim, você vai juntar tudo o que aprendeu no curso ao combinar várias técnicas para liberar conjuntos de dados ao público com segurança.

Exercise 1: PCA para anonimização Exercise 2: Anonimização de dados de alta dimensionalidade Exercise 3: Mascaramento de dados com PCA Exercise 4: Gerando conjuntos de dados realistas com Faker Exercise 5: Conjunto de dados sintético consistente Exercise 6: Conjuntos de dados com a mesma distribuição probabilística Exercise 7: Criando conjuntos de dados sintéticos com scikit-learn Exercise 8: Gerando conjuntos de dados para classificação Exercise 9: Gerando conjuntos de dados para clustering Exercise 10: Liberar conjuntos de dados com segurança para o público Exercise 11: Explorando e pseudonimizando um conjunto de dados Exercise 12: Preparando dados de funcionários para liberação segura Exercise 13: Excelente trabalho!