Campionare dalla stessa distribuzione di probabilità
Molte organizzazioni, come lo U.S. Census, pubblicano campioni dei dati raccolti sui cittadini. Questi insiemi di dati vengono prima anonimizzati con varie tecniche e poi si rilascia una piccola frazione, dall’1% al 5%, per consentire le analisi. Il campionamento è noto per preservare le caratteristiche statistiche dei dati, permettendo di studiare e comprendere la popolazione sottostante.
In questo esercizio, anonimizzerai la colonna department dell’insieme di dati IBM HR campionando dalle distribuzioni del dataset originale.
Il dataset è stato caricato come hr.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Ottieni le frequenze relative di ciascun valore univoco nella colonna
department. - Estrai le probabilità da
countse salvale in una variabile chiamatadistributions. - Campiona dalle distribuzioni di probabilità calcolate in precedenza. La dimensione del campione deve essere uguale alla dimensione del dataset
hr.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())