ComenzarEmpieza gratis

Conjunto de datos sintético coherente

Un escenario en el que las empresas usan datos sintéticos es el entrenamiento de modelos de inteligencia artificial y Machine Learning. A veces, los datos del mundo real son costosos de recopilar o simplemente difíciles de obtener. Cuando los datos de entrenamiento están muy desbalanceados (p. ej., más del 90 % de las instancias pertenecen a una clase), la generación de datos sintéticos puede ayudar a construir modelos de Machine Learning precisos.

En este ejercicio, vas a generar un conjunto de datos de valoraciones de una app móvil usando Faker.

El DataFrame inicial se carga como ratings con dos columnas: rating y gender. Ya tienes inicializado un generador Faker() como fake_data.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female" 
                   else ____
                   for x in ratings['gender']] 
Editar y ejecutar código