Aan de slagGa gratis aan de slag

Gegevenssets met dezelfde probabilistische verdeling

Het doel van synthetische data is om een gegevensset te maken die zo realistisch mogelijk is, zonder daarbij belangrijke persoonsgegevens in gevaar te brengen. Zo heeft een team bij Deloitte Consulting 80% van de trainingsdata voor een machinelearningmodel gesynthetiseerd. De nauwkeurigheid van het resulterende model was vergelijkbaar met die van een model dat op echte data is getraind.

In deze oefening genereer je vanaf nul een synthetische gegevensset met Faker die een probabilistische verdeling volgt die is geladen als p.

De Faker-generator fake_data is al geïnitialiseerd en numpy is geïmporteerd als np.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)
Code bewerken en uitvoeren