Explorer la distribution des données
Lorsque vous souhaitez anonymiser un jeu de données en échantillonnant de manière très réaliste, il est nécessaire d’acquérir des connaissances métier et statistiques sur les données. Comme nous l’avons vu, identifier la loi de probabilité de la colonne qui nous intéresse est essentiel.
Dans cet exercice, vous allez explorer la colonne business_travel issue d’une version simplifiée du jeu de données RH d’IBM.
Le DataFrame a été importé sous le nom hr et numpy sous np. Comme indiqué dans le chapitre précédent, pandas a été importé sous pd pour cet exercice et pour la suite du cours.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the absolute frequencies of each unique value
print(____)