1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Konzistentní syntetická datová sada

Jedním z případů, kdy firmy využívají syntetická data, je trénování modelů umělé inteligence a strojového učení. Reálná data jsou někdy nákladná na sběr nebo se k nim prostě těžko dostává. Pokud jsou trénovací data silně nevyvážená (například více než 90 % instancí patří do jedné třídy), generování syntetických dat může pomoci vytvořit přesné modely strojového učení.

V tomto cvičení vygeneruješ datovou sadu hodnocení mobilní aplikace pomocí Faker.

Výchozí DataFrame je načtený jako ratings se dvěma sloupci: rating a gender. Generátor Faker() je už pro tebe inicializovaný jako fake_data.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Vytvoř sloupec name v DataFrame ratings obsahující jedinečná jména odpovídající sloupci gender.