1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Próbkowanie z najlepiej dopasowanego rozkładu ciągłego

Losowe próbkowanie z dobrze dopasowanego rozkładu prawdopodobieństwa pomaga chronić prywatność, a jednocześnie umożliwia uprawnionym stronom przeprowadzenie dokładnej analizy statystycznej danych.

W tym ćwiczeniu zanonimizujesz kolumnę monthly_income ze zbioru danych IBM. W poprzedniej lekcji ustalono, że rozkład ciągły exponnorm jest najlepiej dopasowany. Użyj go do modelowania dochodów.

Zbiór danych jest dostępny jako hr.

Instrukcje

100 XP
  • Zaimportuj moduł stats z pakietu scipy.
  • Dopasuj rozkład exponnorm do zmiennej ciągłej monthly_income, aby uzyskać parametry rozkładu i wygenerować próbki.
  • Przeprowadź próbkowanie z rozkładu exponnorm i zastąp wartości monthly_income przy użyciu metody .rvs(). Ustaw rozmiar równy długości tej kolumny.
  • Zaokrąglij wynagrodzenia do najbliższej liczby całkowitej.