ComenzarEmpieza gratis

Generar conjuntos de datos para clasificación

Encontrar un conjunto de datos real que cumpla todas las combinaciones de criterios deseadas puede ser complicado y, si se recopila, plantear problemas de privacidad. Como solución, puedes usar generadores de conjuntos de datos que ofrecen buenas aproximaciones a conjuntos de datos reales.

En este ejercicio, crearás un conjunto de datos grande para un problema de clasificación con 3 clases. Para facilitar la visualización de los datos generados como un diagrama de dispersión, se ha proporcionado una función personalizada llamada plot_data_points().

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Ver curso

Instrucciones del ejercicio

  • Importa la función correspondiente de sklearn.datasets para generar conjuntos de datos de clasificación.
  • Genera 5000 muestras con 4 características, 1 clúster por clase, 3 clases y una separación entre clases de 2.
  • Imprime la forma (shape) de los datos generados.
  • Observa el diagrama de dispersión resultante.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the function for generating classification datasets
from sklearn.datasets import ____

# Generate 5000 samples with 4 features, 1 cluster per class, 3 classes, and class separation of 2
x, y = ____

# Inspect the generated data shape
print(____)

# Inspect the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, y)
Editar y ejecutar código