Generare insiemi di dati per la classificazione
Trovare un insieme di dati reale che soddisfi tutte le combinazioni di criteri desiderate può essere complicato e, se raccolto, comportare problemi di privacy. Come soluzione, puoi usare generatori di insiemi di dati per ottenere buone approssimazioni di insiemi di dati del mondo reale.
In questo esercizio, creerai un ampio insieme di dati per un problema di classificazione a 3 classi. Per facilitare la visualizzazione dei dati generati come scatter plot, è stata fornita una funzione personalizzata: plot_data_points().
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Importa la funzione corrispondente da
sklearn.datasetsper generare insiemi di dati di classificazione. - Genera
5000campioni con4feature,1cluster per classe,3classi e una separazione tra classi pari a2. - Stampa la shape dei dati generati.
- Guarda lo scatter plot risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the function for generating classification datasets
from sklearn.datasets import ____
# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____
# Inspect the generated data shape
print(____)
# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)