LoslegenKostenlos loslegen

Stichproben aus der besten stetigen Verteilung ziehen

Zufallsstichproben aus einer gut passenden Wahrscheinlichkeitsverteilung helfen, die Privatsphäre zu wahren. Gleichzeitig ermöglichen sie autorisierten Personen eine genaue statistische Analyse der Daten.

In dieser Übung anonymisierst du die Spalte monthly_income aus dem IBM-Datensatz. In der vorherigen Lektion hast du festgestellt, dass die stetige Verteilung exponnorm am besten passt. Nutze sie, um die Einkommen zu modellieren.

Der Datensatz ist als hr verfügbar.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere das Modul stats aus dem Paket scipy.
  • Fitte die Verteilung exponnorm an die stetige Variable monthly_income, um die Parameter der Verteilung zu erhalten und später Stichproben zu generieren.
  • Ziehe Stichproben aus der Verteilung exponnorm und ersetze monthly_income mithilfe der Methode .rvs(). Gib die Größe so an, dass sie der Länge der Spalte entspricht.
  • Runde die Gehälter auf die nächstliegenden ganzen Zahlen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import stats from scipy
____

# Fit the exponnorm distribution to the continuous variable monthly income
params = ____

# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____

# Round the salaries to their closest integer
hr['monthly_income'] = ____

# See the resulting dataset
print(hr.head())
Code bearbeiten und ausführen