Generazione di insiemi di dati per il clustering
I dati sintetici sono pienamente legali e rispettano tutti i requisiti delle leggi e normative sulla privacy in tutto il mondo. Sono un’alternativa valida e attenta alla privacy rispetto ai dati grezzi. La funzione make_blobs() può essere usata per generare punti dati con una distribuzione gaussiana (o normale).
In questo esercizio genererai un insieme di dati di 15000 campioni.
numpy è già stato importato come np, e per questo esercizio è stata fornita di nuovo la funzione personalizzata plot_data_points().
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Importa la funzione corrispondente dal modulo
datasetsper generare insiemi di dati per il clustering. - Genera un insieme di dati di
15000campioni con2feature,2centroidi e una deviazione standard dei cluster pari a3. - Stampa la shape dei dati generati risultanti.
- Ispeziona i punti dati risultanti in uno scatter plot bidimensionale.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____
# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____
# Print the shape of the resulting generated data
print(____)
# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)