IniziaInizia gratis

Campionare dalla stessa distribuzione di probabilità

Molte organizzazioni, come lo U.S. Census, pubblicano campioni dei dati raccolti sui cittadini. Questi insiemi di dati vengono prima anonimizzati con varie tecniche e poi si rilascia una piccola frazione, dall’1% al 5%, per consentire le analisi. Il campionamento è noto per preservare le caratteristiche statistiche dei dati, permettendo di studiare e comprendere la popolazione sottostante.

In questo esercizio, anonimizzerai la colonna department dell’insieme di dati IBM HR campionando dalle distribuzioni del dataset originale.

Il dataset è stato caricato come hr.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Ottieni le frequenze relative di ciascun valore univoco nella colonna department.
  • Estrai le probabilità da counts e salvale in una variabile chiamata distributions.
  • Campiona dalle distribuzioni di probabilità calcolate in precedenza. La dimensione del campione deve essere uguale alla dimensione del dataset hr.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())
Modifica ed esegui il codice