Gegevenssets met dezelfde probabilistische verdeling
Het doel van synthetische data is om een gegevensset te maken die zo realistisch mogelijk is, zonder daarbij belangrijke persoonsgegevens in gevaar te brengen. Zo heeft een team bij Deloitte Consulting 80% van de trainingsdata voor een machinelearningmodel gesynthetiseerd. De nauwkeurigheid van het resulterende model was vergelijkbaar met die van een model dat op echte data is getraind.
In deze oefening genereer je vanaf nul een synthetische gegevensset met Faker die een probabilistische verdeling volgt die is geladen als p.
De Faker-generator fake_data is al geïnitialiseerd en numpy is geïmporteerd als np.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)
# Generate 5 random cities
cities = ____
# See the generated cities
print(cities)