Datensätze für Klassifikation generieren
Einen realen Datensatz zu finden, der alle gewünschten Kriterien erfüllt, kann kompliziert sein und bei Erhebung Datenschutzbedenken mit sich bringen. Als Lösung kannst du Datensatz-Generatoren verwenden, die gute Annäherungen an reale Datensätze liefern.
In dieser Übung erstellst du einen großen Datensatz für ein Klassifikationsproblem mit 3 Klassen. Für die einfache Visualisierung der erzeugten Daten als Streudiagramm steht dir die Funktion plot_data_points() zur Verfügung.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Anleitung zur Übung
- Importiere die entsprechende Funktion aus
sklearn.datasetszum Generieren von Klassifikationsdatensätzen. - Generiere
5000Stichproben mit4Merkmalen,1Cluster pro Klasse,3Klassen und einer Klassen-Trennung von2. - Gib die Form (shape) der erzeugten Daten aus.
- Sieh dir das resultierende Streudiagramm an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the function for generating classification datasets
from sklearn.datasets import ____
# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____
# Inspect the generated data shape
print(____)
# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)