1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Predicția salariilor

În acest exercițiu, vei folosi setul de date privind venitul din recensământ pentru a prezice dacă persoanele au un salariu de peste 50.000 USD/an sau nu.

Reține că trebuie să specifici limitele ca parametru atunci când creezi modelul privat, pentru a evita pierderi suplimentare de confidențialitate sau scurgeri de informații. De obicei, poți alege limitele independent de date, folosind cunoștințe din domeniu sau o căutare cu un histogramă diferențial privată.

Setul de date a fost încărcat și împărțit în X_train, y_train, X_test și y_test. Clasificatorul este disponibil ca dp_GaussianNB.

Instrucțiuni

100 XP
  • Stabilește limitele modelului calculând valorile min și max din datele de antrenament și adăugând zgomot aleatoriu prin scăderea, respectiv adăugarea unor numere aleatoare dintr-un interval de la 5 la 40 pentru cele 5 coloane din datele noastre.
  • Creează un clasificator dp_GaussianNB cu un epsilon de 0.5 și limitele definite anterior.
  • Antrenează modelul pe date și verifică scorul.