Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten
Wenn du mit echten Daten arbeitest, musst du sicherstellen, dass keine personenbezogenen Informationen unserer Kundschaft oder anderer Personen zurückverfolgt oder offengelegt werden können. In dieser Übung verwendest du eine vereinfachte Version des IBM HR Analytics Employee Datensatzes, um Unterdrückungs- und Generalisierungstechniken zu üben.
Um das Leaken von Informationen über den Datensatz zu vermeiden, ersetzt du die Spaltennamen durch Zahlen.
Das DataFrame ist als hr geladen, nutze die Konsole, um es zu erkunden. numpy ist als np importiert.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1)
# Drop the rows with NaN values
df_cleaned = ____