1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Generování datasetů pro shlukování

Syntetická data jsou plně legální a splňují veškeré požadavky zákonů a předpisů o ochraně soukromí po celém světě. Jsou legitimní alternativou k reálným datům s ohledem na ochranu soukromí. Funkce make_blobs() slouží ke generování datových bodů s Gaussovým (neboli normálním) rozdělením.

V tomto cvičení vygeneruješ dataset s 15000 vzorky.

numpy už je naimportován jako np a vlastní funkce plot_data_points() je pro toto cvičení opět k dispozici.

Pokyny

100 XP
  • Naimportuj odpovídající funkci z modulu datasets pro generování shlukovacích datasetů.
  • Vygeneruj dataset s 15000 vzorky, 2 příznaky, 2 centry a směrodatnou odchylkou shluku 3.
  • Vypiš tvar výsledných vygenerovaných dat.
  • Prohlédni si výsledné datové body ve 2D bodovém grafu.