Campionare dalla stessa distribuzione di probabilità
Molte organizzazioni, come lo U.S. Census, pubblicano campioni dei dati raccolti sui cittadini. Questi insiemi di dati vengono prima anonimizzati con varie tecniche e poi si rilascia una piccola frazione, dall’1% al 5%, per consentire le analisi. Il campionamento è noto per preservare le caratteristiche statistiche dei dati, permettendo di studiare e comprendere la popolazione sottostante.
In questo esercizio, anonimizzerai la colonna department dell’insieme di dati IBM HR campionando dalle distribuzioni del dataset originale.
Il dataset è stato caricato come hr.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Ottieni le frequenze relative di ciascun valore univoco nella colonna
department. - Estrai le probabilità da
countse salvale in una variabile chiamatadistributions. - Campiona dalle distribuzioni di probabilità calcolate in precedenza. La dimensione del campione deve essere uguale alla dimensione del dataset
hr.
esercizio interattivo pratico
Prova questo esercizio completando questo codice di esempio.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())