Datensätze mit derselben Wahrscheinlichkeitsverteilung
Ziel synthetischer Daten ist es, einen Datensatz zu erzeugen, der so realistisch wie möglich ist – ohne dabei sensible personenbezogene Informationen zu gefährden. Ein Team bei Deloitte Consulting hat zum Beispiel 80 % der Trainingsdaten für ein Machine-Learning-Modell durch synthetische Daten ersetzt. Die resultierende Modellgenauigkeit war ähnlich wie bei einem Modell, das mit echten Daten trainiert wurde.
In dieser Übung erstellst du mit Faker von Grund auf einen synthetischen Datensatz, der einer als p geladenen Wahrscheinlichkeitsverteilung folgt.
Der Faker-Generator fake_data ist bereits initialisiert und numpy ist als np importiert.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)
# Generate 5 random cities
cities = ____
# See the generated cities
print(cities)