CommencerCommencer gratuitement

Explorer la distribution des données

Lorsque vous souhaitez anonymiser un jeu de données en échantillonnant de manière très réaliste, il est nécessaire d’acquérir des connaissances métier et statistiques sur les données. Comme nous l’avons vu, identifier la loi de probabilité de la colonne qui nous intéresse est essentiel.

Dans cet exercice, vous allez explorer la colonne business_travel issue d’une version simplifiée du jeu de données RH d’IBM.

Le DataFrame a été importé sous le nom hr et numpy sous np. Comme indiqué dans le chapitre précédent, pandas a été importé sous pd pour cet exercice et pour la suite du cours.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the absolute frequencies of each unique value
print(____)
Modifier et exécuter le code