Gegevenssets genereren voor classificatie
Een echte gegevensset vinden die aan alle gewenste combinaties van criteria voldoet, kan ingewikkeld zijn en, als die al verzameld is, privacyproblemen opleveren. Als oplossing kun je gegevenssetgeneratoren gebruiken die goede benaderingen van realistische gegevenssets geven.
In deze oefening maak je een grote gegevensset voor een classificatieprobleem met 3 klassen. Voor eenvoudige visualisatie van de gegenereerde data als scatterplot is een aangepaste functie beschikbaar als plot_data_points().
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Oefeninstructies
- Importeer de bijbehorende functie uit
sklearn.datasetsom classificatiegegevenssets te genereren. - Genereer
5000steekproeven met4features,1cluster per klasse,3klassen en een klassenscheiding van2. - Print de vorm (shape) van de gegenereerde data.
- Bekijk de resulterende scatterplot.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the function for generating classification datasets
from sklearn.datasets import ____
# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____
# Inspect the generated data shape
print(____)
# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)