Generar conjuntos de datos para clustering
Los datos sintéticos son totalmente legales y cumplen todos los requisitos de las leyes y normativas de privacidad en todo el mundo. Son una alternativa válida y respetuosa con la privacidad frente a los datos en bruto. La función make_blobs() se puede usar para generar puntos de datos con una distribución gaussiana (o normal).
En este ejercicio, vas a generar un conjunto de datos de 15000 muestras.
numpy ya se ha importado como np, y se ha proporcionado de nuevo la función personalizada plot_data_points() para este ejercicio.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Instrucciones del ejercicio
- Importa la función correspondiente del módulo
datasetspara generar conjuntos de datos de clustering. - Genera un conjunto de datos de
15000muestras con2características,2centros y una desviación estándar de los clústeres de3. - Imprime la forma del conjunto de datos resultante.
- Inspecciona los puntos resultantes en un diagrama de dispersión bidimensional.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____
# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____
# Print the shape of the resulting generated data
print(____)
# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)