Insieme di dati sintetico coerente
Uno scenario in cui le aziende usano dati sintetici è l’addestramento di modelli di intelligenza artificiale e di Machine Learning. I dati reali a volte sono costosi da raccogliere o semplicemente difficili da reperire. Quando i dati di training sono molto sbilanciati (ad esempio, oltre il 90% delle istanze appartiene a una classe), la generazione di dati sintetici può aiutare a costruire modelli di Machine Learning accurati.
In questo esercizio genererai un insieme di dati di valutazioni di un’app mobile usando Faker.
Il DataFrame iniziale è caricato come ratings con due colonne: rating e gender. Un generatore Faker() è già stato inizializzato per te come fake_data.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female"
else ____
for x in ratings['gender']]