1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Generowanie zbiorów danych do klasteryzacji

Dane syntetyczne są w pełni legalne i spełniają wszystkie wymogi przepisów dotyczących prywatności obowiązujących na całym świecie. To wartościowa, przyjazna prywatności alternatywa dla surowych danych. Funkcja make_blobs() służy do generowania punktów danych o rozkładzie Gaussa (normalnym).

W tym ćwiczeniu wygenerujesz zbiór danych zawierający 15000 próbek.

Biblioteka numpy została już zaimportowana jako np, a niestandardowa funkcja plot_data_points() jest ponownie dostępna w tym ćwiczeniu.

Instrukcje

100 XP
  • Zaimportuj odpowiednią funkcję z modułu datasets służącą do generowania zbiorów danych do klasteryzacji.
  • Wygeneruj zbiór danych zawierający 15000 próbek, z 2 cechami, 2 centrami i odchyleniem standardowym klastra równym 3.
  • Wyświetl kształt wygenerowanych danych.
  • Przejrzyj wygenerowane punkty danych na dwuwymiarowym wykresie rozrzutu.