Aan de slagGa gratis aan de slag

Onderzoek de verdeling van gegevens

Als je een gegevensset op een realistische manier wilt anonimiseren door te sampelen, heb je domeinkennis en statistische kennis over de data nodig. Zoals we hebben gezien, is het vinden van de kansverdeling van de kolom van interesse cruciaal.

In deze oefening ga je de kolom business_travel verkennen uit een vereenvoudigde versie van de IBM HR-gegevensset.

De DataFrame is geïmporteerd als hr en numpy als np. Zoals gezegd in het vorige hoofdstuk is pandas geïmporteerd als pd voor deze en de rest van de cursus.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print the absolute frequencies of each unique value
print(____)
Code bewerken en uitvoeren