Onderzoek de verdeling van gegevens
Als je een gegevensset op een realistische manier wilt anonimiseren door te sampelen, heb je domeinkennis en statistische kennis over de data nodig. Zoals we hebben gezien, is het vinden van de kansverdeling van de kolom van interesse cruciaal.
In deze oefening ga je de kolom business_travel verkennen uit een vereenvoudigde versie van de IBM HR-gegevensset.
De DataFrame is geïmporteerd als hr en numpy als np. Zoals gezegd in het vorige hoofdstuk is pandas geïmporteerd als pd voor deze en de rest van de cursus.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the absolute frequencies of each unique value
print(____)