Datasety se stejným pravděpodobnostním rozdělením

Cílem syntetických dat je vytvořit dataset, který je co nejrealističtější, aniž by přitom ohrozil důležité osobní údaje. Například tým v Deloitte Consulting vygeneroval 80 % trénovacích dat pro model strojového učení syntézou dat. Výsledná přesnost modelu byla srovnatelná s modelem trénovaným na reálných datech.

V tomto cvičení vytvoříš syntetický dataset od základu pomocí Faker, který bude sledovat pravděpodobnostní rozdělení načtené jako p.

Generátor Faker s názvem fake_data je již inicializován a numpy je importován jako np.

Pomocí list comprehension vytvoř seznam cities s 5 náhodně vybranými městy, která nahradí ta původní.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny 1/2

cvičení