Insiemi di dati con la stessa distribuzione probabilistica
L'obiettivo dei dati sintetici è creare un insieme di dati il più realistico possibile, senza mettere a rischio informazioni personali sensibili. Per esempio, un team di Deloitte Consulting ha generato l'80% dei dati di training per un modello di Machine Learning sintetizzando i dati. L'accuratezza del modello risultante è stata simile a quella di un modello addestrato su dati reali.
In questo esercizio genererai da zero un insieme di dati sintetici usando Faker, seguendo una distribuzione probabilistica caricata come p.
Il generatore di Faker fake_data è già stato inizializzato e numpy è importato come np.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)
# Generate 5 random cities
cities = ____
# See the generated cities
print(cities)