Jeu de données synthétique cohérent
L’un des cas d’usage des données synthétiques est l’entraînement de modèles d’intelligence artificielle et de Machine Learning. Les données réelles sont parfois coûteuses à collecter ou tout simplement difficiles à obtenir. Lorsque les données d’entraînement sont fortement déséquilibrées (par exemple, plus de 90 % des occurrences appartiennent à une seule classe), la génération de données synthétiques peut aider à construire des modèles de Machine Learning plus précis.
Dans cet exercice, vous allez générer un jeu de données d’évaluations d’une application mobile à l’aide de Faker.
Le DataFrame initial est chargé sous le nom ratings avec deux colonnes : rating et gender. Un générateur Faker() a déjà été initialisé pour vous sous le nom fake_data.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]