ComeçarComece de graça

Construa um classificador com privacidade diferencial

Neste exercício, você vai criar e treinar um modelo privado de Gaussian Naive Bayes no conjunto de dados Penguin para classificar se um pinguim é macho ou fêmea.

K-anonymity não funciona bem com conjuntos de dados de alta dimensionalidade ou muito diversos devido a suas limitações teóricas e empíricas — a “maldição da dimensionalidade”. À medida que o número de atributos ou dimensões cresce, a quantidade de dados necessária para generalizar com precisão cresce exponencialmente. Esse é um dos motivos pelos quais a privacidade diferencial é o modelo de privacidade preferido atualmente. O épsilon é independente de qualquer conhecimento prévio e “limita” as informações sensíveis.

O DataFrame foi carregado como penguin_df e dividido em X_train, y_train, X_test e y_test. A classe do modelo privado foi importada como dp_GaussianNB.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Instruções do exercício

  • Crie um classificador dp_GaussianNB sem parâmetros.
  • Ajuste o modelo criado anteriormente aos dados sem passar parâmetros.
  • Calcule a pontuação do modelo privado com base nos dados de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))
Editar e executar o código