Aan de slagBegin gratis

Gegevenssets genereren voor classificatie

Een echte gegevensset vinden die aan alle gewenste combinaties van criteria voldoet, kan ingewikkeld zijn en, als die al verzameld is, privacyproblemen opleveren. Als oplossing kun je gegevenssetgeneratoren gebruiken die goede benaderingen van realistische gegevenssets geven.

In deze oefening maak je een grote gegevensset voor een classificatieprobleem met 3 klassen. Voor eenvoudige visualisatie van de gegenereerde data als scatterplot is een aangepaste functie beschikbaar als plot_data_points().

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Bekijk cursus

Oefeninstructies

  • Importeer de bijbehorende functie uit sklearn.datasets om classificatiegegevenssets te genereren.
  • Genereer 5000 steekproeven met 4 features, 1 cluster per klasse, 3 klassen en een klassenscheiding van 2.
  • Print de vorm (shape) van de gegenereerde data.
  • Bekijk de resulterende scatterplot.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the function for generating classification datasets
from sklearn.datasets import ____

# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____

# Inspect the generated data shape
print(____)

# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)
Code bewerken en uitvoeren