1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Maskowanie wrażliwych danych osobowych

Masz do dyspozycji zbiór danych zawierający numery ubezpieczenia społecznego (SSN) obywateli amerykańskich wraz z ich miastami zamieszkania i wiekiem. Gdyby były to dane niepubliczne, udostępnione nam wyłącznie na określonych warunkach, ich ujawnienie oznaczałoby naruszenie prywatności – ujawniasz bowiem informacje, których osoby te nie spodziewały się zobaczyć w obiegu.

Twoim zadaniem jest zanonimizowanie danych poprzez zastosowanie częściowego maskowania wrażliwych danych osobowych w kolumnie ssn. Pamiętaj: maskowanie danych polega na ukrywaniu lub zaciemnianiu informacji w celu zapobiegania naruszeniom prywatności, przy jednoczesnym zachowaniu ogólnego formatu i znaczenia danych.

Zbiór danych został wczytany jako insurance_df. Wynik zapisz w zmiennej masked_df, aby zachować oryginalny insurance_df bez zmian.

Instrukcje 1/2

undefined XP
  • 1
    • Zamaskuj kolumnę ssn w masked_df wartością '*'.
    • Wyświetl pierwsze 5 wierszy wynikowego DataFrame za pomocą .head().
  • 2
    • Zastosuj częściowe maskowanie kolumny ssn za pomocą funkcji lambda, która dla każdego numeru s łączy pierwszy znak z "****" i ostatnim znakiem (np. "1****6").