LoslegenKostenlos starten

Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten

Wenn du mit echten Daten arbeitest, musst du sicherstellen, dass keine personenbezogenen Informationen unserer Kundschaft oder anderer Personen zurückverfolgt oder offengelegt werden können. In dieser Übung verwendest du eine vereinfachte Version des IBM HR Analytics Employee Datensatzes, um Unterdrückungs- und Generalisierungstechniken zu üben.

Um das Leaken von Informationen über den Datensatz zu vermeiden, ersetzt du die Spaltennamen durch Zahlen.

Das DataFrame ist als hr geladen, nutze die Konsole, um es zu erkunden. numpy ist als np importiert.

Diese Übung ist Teil des Kurses

<Kurs>Datenschutz und Anonymisierung mit Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1) 

# Drop the rows with NaN values
df_cleaned = ____
Code bearbeiten und ausführen