1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Použití hierarchií pro kategorická data

V tomto cvičení vytvoříš a použiješ hierarchie pro aplikaci generalizace dat na sloupec bachelors z datové sady US Adult Income.

K dispozici máš výchozí slovník hierarchií pod názvem hierarchies. Obsahuje tři kategorie typů vzdělání: Primary, Secondary a Higher – každá má seznam odpovídajících hodnot vzdělání z datové sady. Klidně si ho prozkoumej v interaktivní konzoli.

Vytvoříme nový slovník, který bude uchovávat zobecněné informace o vzdělání, a použijeme ho k nahrazení původních hodnot.

Dataset je dostupný jako income_df.

Pokyny

100 XP
  • Inicializuj education_hierarchy jako prázdný slovník.
  • Dokonči vnitřní smyčku tak, aby byl typ vzdělání key přiřazen jako hodnota. Například {'Some-college': 'Higher education'}.
  • Aplikuj generalizaci hierarchie vzdělání na sloupec bachelors a výsledek ulož do nového sloupce bachelors_generalized.