1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Sestav klasifikátor s diferenciálním soukromím

V tomto cvičení sestavíš a natrénuješ privátní model Gaussian Naive Bayes na datové sadě Penguin, který bude klasifikovat, zda je tučňák samec nebo samice.

K-anonymita nefunguje dobře s vícerozměrnými nebo různorodými datovými sadami – naráží na výrazná teoretická i praktická omezení, tzv. „prokletí dimenzionality". Jak roste počet příznaků nebo dimenzí, množství dat potřebných pro přesnou generalizaci roste exponenciálně. To je jeden z důvodů, proč je diferenciální soukromí aktuálně preferovaným modelem ochrany soukromí. Epsilon je nezávislý na jakýchkoliv předchozích znalostech a citlivé informace „ohraničuje".

DataFrame je načten jako penguin_df a rozdělen na X_train, y_train, X_test a y_test. Třída privátního modelu byla importována jako dp_GaussianNB.

Pokyny

100 XP
  • Vytvoř klasifikátor dp_GaussianNB bez parametrů.
  • Natrénuj vytvořený model na datech bez jakýchkoliv parametrů.
  • Vypočítej skóre privátního modelu na základě testovacích dat.