LoslegenKostenlos loslegen

Untersuche die Verteilung der Daten

Wenn wir einen Datensatz durch sehr realitätsnahes Sampling anonymisieren wollen, brauchen wir etwas Domänen- und Statistikkenntnis über die Daten. Wie wir gesehen haben, ist es entscheidend, die Wahrscheinlichkeitsverteilung der interessierenden Spalte zu finden.

In dieser Übung untersuchst du die Spalte business_travel aus einer vereinfachten Version des IBM-HR-Datensatzes.

Das DataFrame wurde als hr und numpy als np importiert. Wie im vorherigen Kapitel erwähnt, wurde pandas als pd für diese und alle folgenden Übungen importiert.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the absolute frequencies of each unique value
print(____)
Code bearbeiten und ausführen