LoslegenKostenlos loslegen

Datensätze für Klassifikation generieren

Einen realen Datensatz zu finden, der alle gewünschten Kriterien erfüllt, kann kompliziert sein und bei Erhebung Datenschutzbedenken mit sich bringen. Als Lösung kannst du Datensatz-Generatoren verwenden, die gute Annäherungen an reale Datensätze liefern.

In dieser Übung erstellst du einen großen Datensatz für ein Klassifikationsproblem mit 3 Klassen. Für die einfache Visualisierung der erzeugten Daten als Streudiagramm steht dir die Funktion plot_data_points() zur Verfügung.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die entsprechende Funktion aus sklearn.datasets zum Generieren von Klassifikationsdatensätzen.
  • Generiere 5000 Stichproben mit 4 Merkmalen, 1 Cluster pro Klasse, 3 Klassen und einer Klassen-Trennung von 2.
  • Gib die Form (shape) der erzeugten Daten aus.
  • Sieh dir das resultierende Streudiagramm an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the function for generating classification datasets
from sklearn.datasets import ____

# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____

# Inspect the generated data shape
print(____)

# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)
Code bearbeiten und ausführen