Generar conjuntos de datos para clasificación
Encontrar un conjunto de datos real que cumpla todas las combinaciones de criterios deseadas puede ser complicado y, si se recopila, plantear problemas de privacidad. Como solución, puedes usar generadores de conjuntos de datos que ofrecen buenas aproximaciones a conjuntos de datos reales.
En este ejercicio, crearás un conjunto de datos grande para un problema de clasificación con 3 clases. Para facilitar la visualización de los datos generados como un diagrama de dispersión, se ha proporcionado una función personalizada llamada plot_data_points().
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Instrucciones del ejercicio
- Importa la función correspondiente de
sklearn.datasetspara generar conjuntos de datos de clasificación. - Genera
5000muestras con4características,1clúster por clase,3clases y una separación entre clases de2. - Imprime la forma (
shape) de los datos generados. - Observa el diagrama de dispersión resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the function for generating classification datasets
from sklearn.datasets import ____
# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____
# Inspect the generated data shape
print(____)
# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)