Construa um classificador com privacidade diferencial
Neste exercício, você vai criar e treinar um modelo privado de Gaussian Naive Bayes no conjunto de dados Penguin para classificar se um pinguim é macho ou fêmea.
K-anonymity não funciona bem com conjuntos de dados de alta dimensionalidade ou muito diversos devido a suas limitações teóricas e empíricas — a “maldição da dimensionalidade”. À medida que o número de atributos ou dimensões cresce, a quantidade de dados necessária para generalizar com precisão cresce exponencialmente. Esse é um dos motivos pelos quais a privacidade diferencial é o modelo de privacidade preferido atualmente. O épsilon é independente de qualquer conhecimento prévio e “limita” as informações sensíveis.
O DataFrame foi carregado como penguin_df e dividido em X_train, y_train, X_test e y_test. A classe do modelo privado foi importada como dp_GaussianNB.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Crie um classificador
dp_GaussianNBsem parâmetros. - Ajuste o modelo criado anteriormente aos dados sem passar parâmetros.
- Calcule a pontuação do modelo privado com base nos dados de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Built the private classifier without parameters
dp_clf = ____
# Fit the model to the data
____(X_train, y_train)
# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))