1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Mascarea datelor PII sensibile

Ți-a fost furnizat un set de date care conține numerele de asigurare socială (SSN) ale unor cetățeni americani, împreună cu orașele și vârstele acestora. Dacă datele nu au fost încă publicate și consimțământul a fost acordat doar pentru utilizarea lor internă, expunerea lor ar constitui o încălcare a confidențialității, deoarece divulgi informații pe care persoanele vizate nu s-au așteptat să le partajezi.

Sarcina ta este să anonimizezi datele aplicând mascare parțială coloanei PII sensibilă ssn. Reține că mascarea datelor presupune ascunderea/obfuscarea acestora pentru a preveni încălcările de confidențialitate, păstrând totodată formatul și semantica originale.

Setul de date a fost încărcat ca insurance_df, dar salvează rezultatul în masked_df pentru a păstra insurance_df original intact.

Instrucțiuni 1/2

undefined XP
  • 1
    • Maschează coloana ssn din masked_df cu '*'.
    • Afișează primele 5 rânduri ale DataFrame-ului rezultat folosind .head().
  • 2
    • Aplică mascare parțială coloanei ssn cu o funcție lambda în care, pentru fiecare număr s, concatenezi primul caracter cu "****" și ultimul caracter (de exemplu, "1****6").