1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Datasety se stejným pravděpodobnostním rozdělením

Cílem syntetických dat je vytvořit dataset, který je co nejrealističtější, aniž by přitom ohrozil důležité osobní údaje. Například tým v Deloitte Consulting vygeneroval 80 % trénovacích dat pro model strojového učení syntézou dat. Výsledná přesnost modelu byla srovnatelná s modelem trénovaným na reálných datech.

V tomto cvičení vytvoříš syntetický dataset od základu pomocí Faker, který bude sledovat pravděpodobnostní rozdělení načtené jako p.

Generátor Faker s názvem fake_data je již inicializován a numpy je importován jako np.

Pokyny 1/2

undefined XP
    1
    2
  • Pomocí list comprehension vytvoř seznam cities s 5 náhodně vybranými městy, která nahradí ta původní.