Konsistenter synthetischer Datensatz
Ein Szenario, in dem Unternehmen synthetische Daten einsetzen, ist das Training von künstlicher Intelligenz und Machine-Learning-Modellen. Reale Daten sind mitunter teuer zu erheben oder schlicht schwer zu bekommen. Wenn die Trainingsdaten stark unausgewogen sind (z. B. mehr als 90 % der Instanzen gehören zu einer Klasse), kann die Generierung synthetischer Daten helfen, genaue Machine-Learning-Modelle zu bauen.
In dieser Übung erzeugst du mit Faker einen Datensatz mit Bewertungen einer Mobile-App.
Der initiale DataFrame ist als ratings mit zwei Spalten geladen: rating und gender. Ein Faker()-Generator wurde bereits als fake_data für dich initialisiert.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]