Top- und Bottom-Coding für Gehälter im Weißen Haus
Top- und Bottom-Coding helfen, Ausreißer zu verbergen und das Identifikationsrisiko zu senken, ohne dabei die Datennutzbarkeit zu stark einzuschränken.
In dieser Übung arbeitest du mit Gehaltsdaten aus dem US Weißen Haus für die Jahre 2019 und 2020. Wende die Top- und Bottom-Coding-Technik auf die Spalte salary an.
Du startest mit einer Erkundung der Gehälter und schaust dir an, wie der Großteil der Werte im Zentrum der Verteilung liegt. Auf Basis deiner Erkundung wählst du sinnvolle Top- und Bottom-Coding-Grenzwerte aus.
Das DataFrame ist als wh2020 geladen.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Plot a histogram of salaries
____
plt.show()