1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Eșantionare din cea mai potrivită distribuție continuă

Eșantionarea aleatorie dintr-o distribuție de probabilitate bine adaptată ajută la protejarea confidențialității. În același timp, permite persoanelor autorizate să efectueze o analiză statistică precisă a datelor.

În acest exercițiu, vei anonimiza coloana monthly_income din setul de date IBM. În lecția anterioară, ai determinat că distribuția continuă exponnorm este cea mai potrivită. Folosește-o pentru a modela veniturile.

Setul de date este disponibil ca hr.

Instrucțiuni

100 XP
  • Importă modulul stats din pachetul scipy.
  • Ajustează distribuția exponnorm la variabila continuă monthly_income pentru a obține parametrii distribuției și a genera ulterior eșantioanele.
  • Eșantionează din distribuția exponnorm și înlocuiește monthly_income folosind metoda .rvs(). Specifică dimensiunea egală cu lungimea coloanei.
  • Rotunjește salariile la cel mai apropiat număr întreg.