Échantillonnage à partir de la même distribution de probabilité
De nombreuses organisations, comme l’U.S. Census, publient des échantillons de données qu’elles collectent sur des citoyens. Ces jeux de données sont d’abord anonymisés à l’aide de différentes techniques, puis une infime fraction de 1 % à 5 % d’un échantillon est publiée pour permettre des calculs. L’échantillonnage est connu pour préserver les caractéristiques statistiques des données, ce qui permet d’étudier et de comprendre la population sous-jacente.
Dans cet exercice, vous allez anonymiser la colonne department du jeu de données IBM HR en échantillonnant à partir des distributions du jeu de données d’origine.
Le jeu de données a été chargé sous le nom hr.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Instructions
- Obtenez les fréquences relatives de chaque valeur unique dans la colonne
department. - Extrayez les probabilités depuis
countset stockez-les dans une variable appeléedistributions. - Échantillonnez à partir des distributions de probabilité calculées précédemment. La taille de l’échantillon doit être identique à la taille du jeu de données
hr.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Obtain the probability distribution counts
counts = ____
# Get the probability distribution values
distributions = ____
# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index,
p=____,
size=len(____))
# See the resulting DataFrame
print(hr.head())