Aan de slagGa gratis aan de slag

Werknemersdata voorbereiden voor veilige publicatie

Als je met echte data werkt, moet je ervoor zorgen dat persoonlijke informatie van klanten of anderen niet te herleiden of bloot te leggen is. In deze oefening gebruik je een vereenvoudigde versie van de IBM HR Analytics Employee-gegevensset om technieken voor suppressie en generalisatie te oefenen.

Om te voorkomen dat je informatie over de gegevensset lekt, vervang je de kolomnamen door nummers.

De DataFrame is geladen als hr. Gebruik de console om deze te verkennen. numpy is geïmporteerd als np.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1) 

# Drop the rows with NaN values
df_cleaned = ____
Code bewerken en uitvoeren