Consistente synthetische gegevensset
Een situatie waarin bedrijven synthetische gegevens gebruiken, is het trainen van artificial intelligence- en Machine Learning-modellen. Data uit de echte wereld is soms duur om te verzamelen of simpelweg lastig te vinden. Wanneer de trainingsdata sterk uit balans is (bijv. meer dan 90% van de voorbeelden hoort bij één klasse), kan het genereren van synthetische data helpen om nauwkeurige Machine Learning-modellen te bouwen.
In deze oefening genereer je een gegevensset met mobiele app-beoordelingen met behulp van Faker.
De initiële DataFrame is geladen als ratings met twee kolommen: rating en gender. Een Faker()-generator is al voor je geïnitialiseerd als fake_data.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]