Aan de slagGa gratis aan de slag

Consistente synthetische gegevensset

Een situatie waarin bedrijven synthetische gegevens gebruiken, is het trainen van artificial intelligence- en Machine Learning-modellen. Data uit de echte wereld is soms duur om te verzamelen of simpelweg lastig te vinden. Wanneer de trainingsdata sterk uit balans is (bijv. meer dan 90% van de voorbeelden hoort bij één klasse), kan het genereren van synthetische data helpen om nauwkeurige Machine Learning-modellen te bouwen.

In deze oefening genereer je een gegevensset met mobiele app-beoordelingen met behulp van Faker.

De initiële DataFrame is geladen als ratings met twee kolommen: rating en gender. Een Faker()-generator is al voor je geïnitialiseerd als fake_data.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female" 
                   else ____
                   for x in ratings['gender']] 
Code bewerken en uitvoeren