Esplora la distribuzione dei dati
Quando vogliamo anonimizzare un insieme di dati campionando in modo molto realistico, dobbiamo acquisire un po' di conoscenza del dominio e delle caratteristiche statistiche dei dati. Come abbiamo visto, è fondamentale individuare la distribuzione di probabilità della colonna di interesse.
In questo esercizio esplorerai la colonna business_travel da una versione semplificata dell'insieme di dati IBM HR.
Il DataFrame è stato importato come hr e numpy come np. Come detto nel capitolo precedente, per questo e per il resto del corso pandas è stato importato come pd.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the absolute frequencies of each unique value
print(____)