Werknemersdata voorbereiden voor veilige publicatie
Als je met echte data werkt, moet je ervoor zorgen dat persoonlijke informatie van klanten of anderen niet te herleiden of bloot te leggen is. In deze oefening gebruik je een vereenvoudigde versie van de IBM HR Analytics Employee-gegevensset om technieken voor suppressie en generalisatie te oefenen.
Om te voorkomen dat je informatie over de gegevensset lekt, vervang je de kolomnamen door nummers.
De DataFrame is geladen als hr. Gebruik de console om deze te verkennen. numpy is geïmporteerd als np.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1)
# Drop the rows with NaN values
df_cleaned = ____