LoslegenKostenlos loslegen

Datensätze für Clustering erzeugen

Synthetische Daten sind rechtlich unbedenklich und erfüllen weltweit die Anforderungen von Datenschutzgesetzen und -vorschriften. Sie sind eine gültige, datenschutzfreundliche Alternative zu Rohdaten. Die Funktion make_blobs() kann verwendet werden, um Datenpunkte mit einer Gaußschen (normalen) Verteilung zu erzeugen.

In dieser Übung erzeugst du einen Datensatz mit 15000 Stichproben.

numpy wurde bereits als np importiert, und die benutzerdefinierte Funktion plot_data_points() steht dir in dieser Übung wieder zur Verfügung.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die passende Funktion aus dem Modul datasets, um Clustering-Datensätze zu generieren.
  • Erzeuge einen Datensatz mit 15000 Stichproben, 2 Merkmalen, 2 Zentren und einer Cluster-Standardabweichung von 3.
  • Gib die Form der erzeugten Daten aus.
  • Untersuche die resultierenden Datenpunkte in einem zweidimensionalen Streudiagramm.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)
Code bearbeiten und ausführen