1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

Bài tập

Eșantionare din aceeași distribuție de probabilitate

Multe organizații, precum U.S. Census, publică eșantioane din datele colectate despre cetățeni. Aceste seturi de date sunt mai întâi anonimizate prin diverse tehnici, iar apoi un procent mic – între 1% și 5% – este pus la dispoziția publicului pentru a permite efectuarea de calcule. Eșantionarea este cunoscută pentru că păstrează caracteristicile statistice ale datelor, permițând studiul și înțelegerea populației de bază.

În acest exercițiu, vei anonimiza coloana department din setul de date IBM HR prin eșantionare din distribuțiile setului de date original.

Setul de date a fost încărcat ca hr.

Hướng dẫn

100 XP
  • Obține frecvențele relative ale fiecărei valori unice din coloana department.
  • Extrage probabilitățile din counts și stochează-le într-o variabilă numită distributions.
  • Eșantionează din distribuțiile de probabilitate calculate anterior. Dimensiunea eșantionului trebuie să fie egală cu dimensiunea setului de date hr.