CommencerCommencer gratuitement

Échantillonnage à partir de la même distribution de probabilité

De nombreuses organisations, comme l’U.S. Census, publient des échantillons de données qu’elles collectent sur des citoyens. Ces jeux de données sont d’abord anonymisés à l’aide de différentes techniques, puis une infime fraction de 1 % à 5 % d’un échantillon est publiée pour permettre des calculs. L’échantillonnage est connu pour préserver les caractéristiques statistiques des données, ce qui permet d’étudier et de comprendre la population sous-jacente.

Dans cet exercice, vous allez anonymiser la colonne department du jeu de données IBM HR en échantillonnant à partir des distributions du jeu de données d’origine.

Le jeu de données a été chargé sous le nom hr.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Instructions

  • Obtenez les fréquences relatives de chaque valeur unique dans la colonne department.
  • Extrayez les probabilités depuis counts et stockez-les dans une variable appelée distributions.
  • Échantillonnez à partir des distributions de probabilité calculées précédemment. La taille de l’échantillon doit être identique à la taille du jeu de données hr.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Obtain the probability distribution counts 
counts = ____

# Get the probability distribution values 
distributions = ____

# Sample from the calculated probability distributions
hr['department'] = np.random.choice(counts.index, 
                                    p=____, 
                                    size=len(____))

# See the resulting DataFrame
print(hr.head())
Modifier et exécuter le code