Aan de slagGa gratis aan de slag

Gegevenssets genereren voor classificatie

Een echte gegevensset vinden die aan alle gewenste combinaties van criteria voldoet, kan ingewikkeld zijn en, als die al verzameld is, privacyproblemen opleveren. Als oplossing kun je gegevenssetgeneratoren gebruiken die goede benaderingen van realistische gegevenssets geven.

In deze oefening maak je een grote gegevensset voor een classificatieprobleem met 3 klassen. Voor eenvoudige visualisatie van de gegenereerde data als scatterplot is een aangepaste functie beschikbaar als plot_data_points().

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Oefeninstructies

  • Importeer de bijbehorende functie uit sklearn.datasets om classificatiegegevenssets te genereren.
  • Genereer 5000 steekproeven met 4 features, 1 cluster per klasse, 3 klassen en een klassenscheiding van 2.
  • Print de vorm (shape) van de gegenereerde data.
  • Bekijk de resulterende scatterplot.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the function for generating classification datasets
from sklearn.datasets import ____

# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____

# Inspect the generated data shape
print(____)

# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)
Code bewerken en uitvoeren