1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Vzorkování z nejlepší spojité distribuce

Náhodné vzorkování z pravděpodobnostního rozdělení, které dobře odpovídá datům, pomáhá chránit soukromí a zároveň umožňuje oprávněným stranám provádět přesnou statistickou analýzu.

V tomto cvičení anonymizuješ sloupec monthly_income z datové sady IBM. V předchozí lekci jsi určil/a, že nejlépe sedí spojité rozdělení exponnorm. Použij ho k modelování příjmů.

Dataset je k dispozici jako hr.

Pokyny

100 XP
  • Importuj modul stats z balíčku scipy.
  • Napasuj rozdělení exponnorm na spojitou proměnnou monthly_income, aby sis získal/a parametry distribuce potřebné pro generování vzorků.
  • Vyber vzorky z rozdělení exponnorm a nahraď jimi monthly_income pomocí metody .rvs(). Nastav velikost vzorku tak, aby odpovídala délce sloupce.
  • Zaokrouhli mzdy na nejbližší celé číslo.