1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Generování datasetů pro klasifikaci

Najít skutečný dataset, který splňuje všechny požadované kombinace kritérií, může být složité – a pokud by byl nasbírán, mohl by přinášet obavy o soukromí. Jako řešení můžeš použít generátory datasetů, které dobře aproximují reálná data.

V tomto cvičení vytvoříš velký dataset pro klasifikační úlohu se 3 třídami. Pro snadnou vizualizaci vygenerovaných dat jako bodového grafu je k dispozici vlastní funkce plot_data_points().

Pokyny

100 XP
  • Importuj odpovídající funkci z sklearn.datasets pro generování klasifikačních datasetů.
  • Vygeneruj 5000 vzorků se 4 příznaky, 1 klastrem na třídu, 3 třídami a separací tříd 2.
  • Vypiš tvar vygenerovaných dat.
  • Prohlédni si výsledný bodový graf.