1. Learn
  2. /
  3. Курси
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

вправа

Explorează distribuția datelor

Când vrem să anonimizăm un set de date prin eșantionare realistă, trebuie să cunoaștem domeniul și să înțelegem statistic datele. Așa cum am văzut, identificarea distribuției de probabilitate a coloanei de interes este esențială.

În acest exercițiu, vei explora coloana business_travel dintr-o versiune simplificată a setului de date IBM HR.

DataFrame-ul a fost importat ca hr, iar numpy ca np. Așa cum s-a menționat în capitolul anterior, pandas a fost importat ca pd pentru acest exercițiu și pentru restul cursului.

Інструкції 1/3

undefined XP
  • 1
    • Afișează frecvențele absolute ale fiecărei valori unice din coloana business_travel.
  • 2
    • Afișează distribuția de probabilitate a variabilei business_travel (adică frecvențele relative ale fiecărei categorii).
  • 3
    • Generează o diagramă cu bare pentru a vizualiza frecvențele absolute ale fiecărei categorii din business_travel, folosind rezultatul metodei .value_counts().