Konsistenter synthetischer Datensatz
Ein Szenario, in dem Unternehmen synthetische Daten einsetzen, ist das Training von künstlicher Intelligenz und Machine-Learning-Modellen. Reale Daten sind mitunter teuer zu erheben oder schlicht schwer zu bekommen. Wenn die Trainingsdaten stark unausgewogen sind (z. B. mehr als 90 % der Instanzen gehören zu einer Klasse), kann die Generierung synthetischer Daten helfen, genaue Machine-Learning-Modelle zu bauen.
In dieser Übung erzeugst du mit Faker einen Datensatz mit Bewertungen einer Mobile-App.
Der initiale DataFrame ist als ratings mit zwei Spalten geladen: rating und gender. Ein Faker()-Generator wurde bereits als fake_data für dich initialisiert.
Diese Übung ist Teil des Kurses
<Kurs>Datenschutz und Anonymisierung mit Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]