Conjuntos de datos con la misma distribución probabilística
El objetivo de los datos sintéticos es crear un conjunto de datos lo más realista posible sin poner en riesgo información personal sensible. Por ejemplo, un equipo de Deloitte Consulting generó el 80% de los datos de entrenamiento de un modelo de Machine Learning sintetizando datos. La exactitud del modelo resultante fue similar a la de un modelo entrenado con datos reales.
En este ejercicio, generarás desde cero un conjunto de datos sintético usando Faker que siga una distribución probabilística cargada como p.
El generador de Faker fake_data ya está inicializado y numpy está importado como np.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)
# Generate 5 random cities
cities = ____
# See the generated cities
print(cities)