IniziaInizia gratis

Esplora la distribuzione dei dati

Quando vogliamo anonimizzare un insieme di dati campionando in modo molto realistico, dobbiamo acquisire un po' di conoscenza del dominio e delle caratteristiche statistiche dei dati. Come abbiamo visto, è fondamentale individuare la distribuzione di probabilità della colonna di interesse.

In questo esercizio esplorerai la colonna business_travel da una versione semplificata dell'insieme di dati IBM HR.

Il DataFrame è stato importato come hr e numpy come np. Come detto nel capitolo precedente, per questo e per il resto del corso pandas è stato importato come pd.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Print the absolute frequencies of each unique value
print(____)
Modifica ed esegui il codice