ComenzarEmpieza gratis

Conjuntos de datos con la misma distribución probabilística

El objetivo de los datos sintéticos es crear un conjunto de datos lo más realista posible sin poner en riesgo información personal sensible. Por ejemplo, un equipo de Deloitte Consulting generó el 80% de los datos de entrenamiento de un modelo de Machine Learning sintetizando datos. La exactitud del modelo resultante fue similar a la de un modelo entrenado con datos reales.

En este ejercicio, generarás desde cero un conjunto de datos sintético usando Faker que siga una distribución probabilística cargada como p.

El generador de Faker fake_data ya está inicializado y numpy está importado como np.

Este ejercicio forma parte del curso

Privacidad de datos y anonimización en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)
Editar y ejecutar código