CommencerCommencer gratuitement

Top- et bottom-coding des salaires de la Maison-Blanche

Le top- et bottom-coding permettent de masquer les valeurs extrêmes et de réduire le risque d’identification sans trop diminuer l’utilité des données.

Dans cet exercice, vous allez utiliser des données de salaires de la Maison-Blanche (États-Unis) pour les années 2019 et 2020. Appliquez la technique de top- et bottom-coding à la colonne salary.

Vous commencerez par explorer les salaires afin de voir que la majorité des valeurs se situe au centre de la distribution. À partir de cette exploration, vous choisirez des valeurs raisonnables pour le top- et le bottom-coding.

Le DataFrame est déjà chargé sous le nom wh2020.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Plot a histogram of salaries
____
plt.show()
Modifier et exécuter le code