Gegevenssets genereren voor clustering
Synthetische data is volledig legaal en voldoet aan alle eisen van privacywet- en regelgeving wereldwijd. Het is een geldig, privacybewust alternatief voor ruwe data. De functie make_blobs() kan worden gebruikt om datapunten te genereren met een Gaussische (of normale) verdeling.
In deze oefening genereer je een gegevensset van 15000 samples.
numpy is al geïmporteerd als np, en de aangepaste functie plot_data_points() is opnieuw beschikbaar gesteld voor deze oefening.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Oefeninstructies
- Importeer de bijbehorende functie uit de module
datasetsom clusteringgegevenssets te genereren. - Genereer een gegevensset van
15000samples met2features,2centers en een clusterdwarsafwijking (standaarddeviatie) van3. - Print de shape van de resulterende gegenereerde data.
- Bekijk de resulterende datapunten in een 2D-scatterplot.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____
# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____
# Print the shape of the resulting generated data
print(____)
# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)