1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Construiește un clasificator cu confidențialitate diferențială

În acest exercițiu, vei construi și antrena un model privat Gaussian Naive Bayes pe setul de date Penguin, pentru a clasifica dacă un pinguin este mascul sau femelă.

K-anonimitatea nu funcționează bine cu seturi de date de mari dimensiuni sau diverse, din cauza limitărilor sale teoretice și empirice semnificative – fenomenul cunoscut drept „blestemul dimensionalității". Pe măsură ce numărul de caracteristici sau dimensiuni crește, cantitatea de date necesară pentru o generalizare precisă crește exponențial. Acesta este unul dintre motivele pentru care confidențialitatea diferențială este în prezent modelul de confidențialitate preferat. Epsilon este independent de orice cunoștințe prealabile și „delimitează" informațiile sensibile.

DataFrame-ul este încărcat ca penguin_df și împărțit în X_train, y_train, X_test și y_test. Clasa modelului privat a fost importată ca dp_GaussianNB.

Instrucțiuni

100 XP
  • Creează un clasificator dp_GaussianNB fără parametri.
  • Antrenează modelul creat anterior pe date, fără niciun parametru.
  • Calculează scorul modelului privat pe baza datelor de testare.