Datensätze für Clustering erzeugen
Synthetische Daten sind rechtlich unbedenklich und erfüllen weltweit die Anforderungen von Datenschutzgesetzen und -vorschriften. Sie sind eine gültige, datenschutzfreundliche Alternative zu Rohdaten. Die Funktion make_blobs() kann verwendet werden, um Datenpunkte mit einer Gaußschen (normalen) Verteilung zu erzeugen.
In dieser Übung erzeugst du einen Datensatz mit 15000 Stichproben.
numpy wurde bereits als np importiert, und die benutzerdefinierte Funktion plot_data_points() steht dir in dieser Übung wieder zur Verfügung.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Anleitung zur Übung
- Importiere die passende Funktion aus dem Modul
datasets, um Clustering-Datensätze zu generieren. - Erzeuge einen Datensatz mit
15000Stichproben,2Merkmalen,2Zentren und einer Cluster-Standardabweichung von3. - Gib die Form der erzeugten Daten aus.
- Untersuche die resultierenden Datenpunkte in einem zweidimensionalen Streudiagramm.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____
# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____
# Print the shape of the resulting generated data
print(____)
# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)