IniziaInizia gratis

Generazione di insiemi di dati per il clustering

I dati sintetici sono pienamente legali e rispettano tutti i requisiti delle leggi e normative sulla privacy in tutto il mondo. Sono un’alternativa valida e attenta alla privacy rispetto ai dati grezzi. La funzione make_blobs() può essere usata per generare punti dati con una distribuzione gaussiana (o normale).

In questo esercizio genererai un insieme di dati di 15000 campioni.

numpy è già stato importato come np, e per questo esercizio è stata fornita di nuovo la funzione personalizzata plot_data_points().

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la funzione corrispondente dal modulo datasets per generare insiemi di dati per il clustering.
  • Genera un insieme di dati di 15000 campioni con 2 feature, 2 centroidi e una deviazione standard dei cluster pari a 3.
  • Stampa la shape dei dati generati risultanti.
  • Ispeziona i punti dati risultanti in uno scatter plot bidimensionale.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)
Modifica ed esegui il codice