Jeux de données avec la même distribution probabiliste
L’objectif des données synthétiques est de créer un jeu de données aussi réaliste que possible, sans mettre en danger des informations personnelles sensibles. Par exemple, une équipe de Deloitte Consulting a généré 80 % des données d’entraînement d’un modèle de Machine Learning en synthétisant les données. La précision obtenue était similaire à celle d’un modèle entraîné sur des données réelles.
Dans cet exercice, vous allez générer un jeu de données synthétiques à partir de zéro avec Faker, en suivant une distribution probabiliste chargée sous le nom p.
Le générateur Faker fake_data a déjà été initialisé et numpy est importé sous le nom np.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)
# Generate 5 random cities
cities = ____
# See the generated cities
print(cities)