Sestav klasifikátor s diferenciálním soukromím

V tomto cvičení sestavíš a natrénuješ privátní model Gaussian Naive Bayes na datové sadě Penguin, který bude klasifikovat, zda je tučňák samec nebo samice.

K-anonymita nefunguje dobře s vícerozměrnými nebo různorodými datovými sadami – naráží na výrazná teoretická i praktická omezení, tzv. „prokletí dimenzionality". Jak roste počet příznaků nebo dimenzí, množství dat potřebných pro přesnou generalizaci roste exponenciálně. To je jeden z důvodů, proč je diferenciální soukromí aktuálně preferovaným modelem ochrany soukromí. Epsilon je nezávislý na jakýchkoliv předchozích znalostech a citlivé informace „ohraničuje".

DataFrame je načten jako penguin_df a rozdělen na X_train, y_train, X_test a y_test. Třída privátního modelu byla importována jako dp_GaussianNB.

Vytvoř klasifikátor dp_GaussianNB bez parametrů.
Natrénuj vytvořený model na datech bez jakýchkoliv parametrů.
Vypočítej skóre privátního modelu na základě testovacích dat.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení