LoslegenKostenlos loslegen

Konsistenter synthetischer Datensatz

Ein Szenario, in dem Unternehmen synthetische Daten einsetzen, ist das Training von künstlicher Intelligenz und Machine-Learning-Modellen. Reale Daten sind mitunter teuer zu erheben oder schlicht schwer zu bekommen. Wenn die Trainingsdaten stark unausgewogen sind (z. B. mehr als 90 % der Instanzen gehören zu einer Klasse), kann die Generierung synthetischer Daten helfen, genaue Machine-Learning-Modelle zu bauen.

In dieser Übung erzeugst du mit Faker einen Datensatz mit Bewertungen einer Mobile-App.

Der initiale DataFrame ist als ratings mit zwei Spalten geladen: rating und gender. Ein Faker()-Generator wurde bereits als fake_data für dich initialisiert.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female" 
                   else ____
                   for x in ratings['gender']] 
Code bearbeiten und ausführen