1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Maskování citlivých osobních údajů

Máš k dispozici datovou sadu obsahující čísla sociálního pojištění (SSN) amerických občanů spolu s jejich městem bydliště a věkem. Pokud by šlo o nezveřejněná data, ke jejichž sdílení jsme nedostali souhlas, jejich zpřístupnění by představovalo narušení soukromí – zveřejnili bychom totiž údaje, se kterými dotyční nepočítali.

Tvým úkolem bude data anonymizovat pomocí částečného maskování citlivého osobního údaje ssn. Nezapomeň: maskování dat znamená skrytí nebo zamlžení informací, aby nedošlo k narušení soukromí – přičemž se zachovává celkový formát i význam dat.

Dataset je načtený jako insurance_df, výsledek ale ulož do masked_df, aby původní insurance_df zůstal beze změny.

Instrukce 1/2

undefined XP
  • 1
    • Maskuj sloupec ssn v masked_df hodnotou '*'.
    • Zobraz prvních 5 řádků výsledného DataFrame pomocí .head().
  • 2
    • Aplikuj částečné maskování na ssn pomocí funkce lambda, která pro každé číslo s spojí první znak, řetězec "****" a poslední znak (např. "1****6").