LoslegenKostenlos loslegen

Datensätze mit derselben Wahrscheinlichkeitsverteilung

Ziel synthetischer Daten ist es, einen Datensatz zu erzeugen, der so realistisch wie möglich ist – ohne dabei sensible personenbezogene Informationen zu gefährden. Ein Team bei Deloitte Consulting hat zum Beispiel 80 % der Trainingsdaten für ein Machine-Learning-Modell durch synthetische Daten ersetzt. Die resultierende Modellgenauigkeit war ähnlich wie bei einem Modell, das mit echten Daten trainiert wurde.

In dieser Übung erstellst du mit Faker von Grund auf einen synthetischen Datensatz, der einer als p geladenen Wahrscheinlichkeitsverteilung folgt.

Der Faker-Generator fake_data ist bereits initialisiert und numpy ist als np importiert.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)
Code bearbeiten und ausführen