Construa um classificador com privacidade diferencial

Neste exercício, você vai criar e treinar um modelo privado de Gaussian Naive Bayes no conjunto de dados Penguin para classificar se um pinguim é macho ou fêmea.

K-anonymity não funciona bem com conjuntos de dados de alta dimensionalidade ou muito diversos devido a suas limitações teóricas e empíricas — a “maldição da dimensionalidade”. À medida que o número de atributos ou dimensões cresce, a quantidade de dados necessária para generalizar com precisão cresce exponencialmente. Esse é um dos motivos pelos quais a privacidade diferencial é o modelo de privacidade preferido atualmente. O épsilon é independente de qualquer conhecimento prévio e “limita” as informações sensíveis.

O DataFrame foi carregado como penguin_df e dividido em X_train, y_train, X_test e y_test. A classe do modelo privado foi importada como dp_GaussianNB.

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

Instruções do exercicio

Crie um classificador dp_GaussianNB sem parâmetros.
Ajuste o modelo criado anteriormente aos dados sem passar parâmetros.
Calcule a pontuação do modelo privado com base nos dados de teste.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))

Editar e Executar Código

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

AvançadoNível de habilidade

4.9+

Comece o curso gratuitamente

Prepare-se para aplicar técnicas de anonimização como supressão de dados, mascaramento, geração de dados sintéticos e generalização. Neste capítulo, você vai aprender a diferenciar informações pessoais identificáveis (PII) sensíveis e não sensíveis, quase-identificadores e o básico da GDPR. Você também verá exemplos reais do que pode dar errado se essas boas práticas não forem seguidas.

Exercise 1: O que é privado e por que isso importa?Exercise 2: Privacidade é poder Exercise 3: É sensível ou não sensível?Exercise 4: Supressão de atributos sensíveis Exercise 5: Mascaramento de dados e geração de dados com Faker Exercise 6: Mascarando PII sensível Exercise 7: Removendo nomes com faker Exercise 8: Anonimizando com generalização de dados Exercise 9: Reduzindo o risco de identificação com generalização Exercise 10: Agregação de dados e generalização de dados Exercise 11: Top e bottom coding em salários da Casa Branca

Descubra como anonimizar dados amostrando conjuntos de dados conforme a distribuição de probabilidade das colunas. Em seguida, você vai aprender a aplicar o modelo de privacidade k-anonymity para prevenir ataques de vinculação ou reidentificação e usar hierarquias para realizar generalização de dados em variáveis categóricas.

Exercise 1: Anonimizando dados categóricos Exercise 2: Explore a distribuição dos dados Exercise 3: Amostrando da mesma distribuição de probabilidade Exercise 4: Anonimizando dados contínuos Exercise 5: Distribuições diferentes Exercise 6: Amostragem da melhor distribuição contínua Exercise 7: Introdução ao k-anonymity Exercise 8: Atributos de privacidade Exercise 9: Generalizando em intervalos Exercise 10: Generalizando dados usando hierarquias Exercise 11: Usando hierarquias para dados categóricos Exercise 12: Aplicando k-anonimidade a um conjunto de dados

Aprenda sobre privacidade diferencial, o modelo usado por grandes empresas de tecnologia como Apple, Google e Uber. Neste capítulo, você vai explorar dados gerando histogramas privados e calculando médias privadas. Você também vai criar modelos de Machine Learning com privacidade diferencial que permitem às empresas aumentar a utilidade dos seus dados.

Exercise 1: Introdução à privacidade diferencial Exercise 2: Epsilon (ϵ): o número mágico Exercise 3: Histogramas com privacidade diferencial Exercise 4: Orçamentos de privacidade Exercise 5: Usando orçamentos de privacidade Exercise 6: Quando não há orçamento restante Exercise 7: Explorando dados com um controlador de orçamento de privacidade Exercise 8: Modelos de Machine Learning com privacidade diferencial Exercise 9: Construa um classificador com privacidade diferencial

Exercicio Atual

Exercise 10: Prevendo salários Exercise 11: Modelos de agrupamento com privacidade diferencial Exercise 12: Pré-processamento de dados Exercise 13: Segmentação de clientes

Neste capítulo final, você vai aprender a aplicar métodos de redução de dimensionalidade, como a Análise de Componentes Principais (PCA), para anonimizar grandes conjuntos de dados com muitas colunas. Em seguida, você usará o Faker para gerar conjuntos de dados realistas e consistentes e o scikit-learn para criar conjuntos de dados sintéticos que seguem uma distribuição normal. Por fim, você vai juntar tudo o que aprendeu no curso ao combinar várias técnicas para liberar conjuntos de dados ao público com segurança.

Exercise 1: PCA para anonimização Exercise 2: Anonimização de dados de alta dimensionalidade Exercise 3: Mascaramento de dados com PCA Exercise 4: Gerando conjuntos de dados realistas com Faker Exercise 5: Conjunto de dados sintético consistente Exercise 6: Conjuntos de dados com a mesma distribuição probabilística Exercise 7: Criando conjuntos de dados sintéticos com scikit-learn Exercise 8: Gerando conjuntos de dados para classificação Exercise 9: Gerando conjuntos de dados para clustering Exercise 10: Liberar conjuntos de dados com segurança para o público Exercise 11: Explorando e pseudonimizando um conjunto de dados Exercise 12: Preparando dados de funcionários para liberação segura Exercise 13: Excelente trabalho!