CommencerCommencer gratuitement

Générer des jeux de données pour le clustering

Les données synthétiques sont pleinement légales et conformes aux exigences des lois et réglementations sur la confidentialité dans le monde entier. Elles constituent une alternative valable et respectueuse de la vie privée aux données brutes. La fonction make_blobs() permet de générer des points de données suivant une distribution gaussienne (ou normale).

Dans cet exercice, vous allez générer un jeu de données de 15000 échantillons.

numpy a déjà été importé sous le nom np, et la fonction personnalisée plot_data_points() est à nouveau fournie pour cet exercice.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Instructions

  • Importez la fonction correspondante du module datasets pour générer des jeux de données de clustering.
  • Générez un jeu de données de 15000 échantillons avec 2 variables, 2 centres et un écart type de grappe égal à 3.
  • Affichez la forme (shape) des données générées.
  • Inspectez les points de données obtenus dans un nuage de points en 2 dimensions.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)
Modifier et exécuter le code