Top- et bottom-coding des salaires de la Maison-Blanche
Le top- et bottom-coding permettent de masquer les valeurs extrêmes et de réduire le risque d’identification sans trop diminuer l’utilité des données.
Dans cet exercice, vous allez utiliser des données de salaires de la Maison-Blanche (États-Unis) pour les années 2019 et 2020. Appliquez la technique de top- et bottom-coding à la colonne salary.
Vous commencerez par explorer les salaires afin de voir que la majorité des valeurs se situe au centre de la distribution. À partir de cette exploration, vous choisirez des valeurs raisonnables pour le top- et le bottom-coding.
Le DataFrame est déjà chargé sous le nom wh2020.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Plot a histogram of salaries
____
plt.show()