IniziaInizia gratis

Generare insiemi di dati per la classificazione

Trovare un insieme di dati reale che soddisfi tutte le combinazioni di criteri desiderate può essere complicato e, se raccolto, comportare problemi di privacy. Come soluzione, puoi usare generatori di insiemi di dati per ottenere buone approssimazioni di insiemi di dati del mondo reale.

In questo esercizio, creerai un ampio insieme di dati per un problema di classificazione a 3 classi. Per facilitare la visualizzazione dei dati generati come scatter plot, è stata fornita una funzione personalizzata: plot_data_points().

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la funzione corrispondente da sklearn.datasets per generare insiemi di dati di classificazione.
  • Genera 5000 campioni con 4 feature, 1 cluster per classe, 3 classi e una separazione tra classi pari a 2.
  • Stampa la shape dei dati generati.
  • Guarda lo scatter plot risultante.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the function for generating classification datasets
from sklearn.datasets import ____

# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____

# Inspect the generated data shape
print(____)

# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)
Modifica ed esegui il codice