Conjunto de datos sintético coherente
Un escenario en el que las empresas usan datos sintéticos es el entrenamiento de modelos de inteligencia artificial y Machine Learning. A veces, los datos del mundo real son costosos de recopilar o simplemente difíciles de obtener. Cuando los datos de entrenamiento están muy desbalanceados (p. ej., más del 90 % de las instancias pertenecen a una clase), la generación de datos sintéticos puede ayudar a construir modelos de Machine Learning precisos.
En este ejercicio, vas a generar un conjunto de datos de valoraciones de una app móvil usando Faker.
El DataFrame inicial se carga como ratings con dos columnas: rating y gender. Ya tienes inicializado un generador Faker() como fake_data.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]