CommencerCommencer gratuitement

Créer un classifieur avec confidentialité différentielle

Dans cet exercice, vous allez créer et entraîner un modèle privé Gaussian Naive Bayes sur le jeu de données Penguin afin de prédire si un manchot est mâle ou femelle.

La k-anonymat fonctionne mal avec les jeux de données à forte dimension ou très hétérogènes en raison de ses limites théoriques et empiriques importantes, la « malédiction de la dimension ». À mesure que le nombre de variables ou de dimensions augmente, la quantité de données nécessaire pour généraliser correctement croît de façon exponentielle. C’est l’une des raisons pour lesquelles la confidentialité différentielle est aujourd’hui le modèle de confidentialité privilégié. Epsilon est indépendant de toute connaissance préalable et « borne » les informations sensibles.

Le DataFrame est chargé sous le nom penguin_df et scindé en X_train, y_train, X_test et y_test. La classe du modèle privé a été importée sous le nom dp_GaussianNB.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Instructions

  • Créez un classifieur dp_GaussianNB sans paramètres.
  • Ajustez le modèle créé précédemment aux données sans aucun paramètre.
  • Calculez le score du modèle privé sur les données de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))
Modifier et exécuter le code