Générer des jeux de données pour la classification
Trouver un jeu de données réel qui répond à toutes les combinaisons de critères souhaitées peut être complexe et, s’il est collecté, poser des problèmes de confidentialité. Une solution consiste à utiliser des générateurs de jeux de données qui fournissent de bonnes approximations de jeux de données réels.
Dans cet exercice, vous allez créer un grand jeu de données pour un problème de classification à 3 classes. Pour faciliter la visualisation des données générées sous forme de nuage de points, une fonction personnalisée a été fournie : plot_data_points().
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Instructions
- Importez la fonction correspondante depuis
sklearn.datasetspour générer des jeux de données de classification. - Générez
5000échantillons avec4variables,1cluster par classe,3classes et une séparation des classes de2. - Affichez la forme (shape) des données générées.
- Consultez le nuage de points obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the function for generating classification datasets
from sklearn.datasets import ____
# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____
# Inspect the generated data shape
print(____)
# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)