MulaiMulai sekarang secara gratis

Membangun classifier yang differentially private

Dalam latihan ini, Anda akan membangun dan melatih model Gaussian Naive Bayes privat pada himpunan data Penguin untuk mengklasifikasikan apakah seekor penguin berjenis kelamin jantan atau betina.

K-anonymity tidak bekerja dengan baik pada himpunan data berdimensi tinggi atau beragam karena keterbatasan teoretis dan empirisnya yang signifikan, yakni "kutukan dimensi". Seiring bertambahnya jumlah fitur atau dimensi, jumlah data yang dibutuhkan untuk melakukan generalisasi secara akurat meningkat secara eksponensial. Inilah salah satu alasan mengapa differential privacy menjadi model privasi yang saat ini lebih disukai. Nilai epsilon bersifat independen dari pengetahuan latar belakang apa pun dan "membatasi" informasi sensitif.

DataFrame dimuat sebagai penguin_df dan dibagi menjadi X_train, y_train, X_test, dan y_test. Kelas model privat telah diimpor sebagai dp_GaussianNB.

Latihan ini adalah bagian dari kursus

Privasi Data dan Anonimisasi di Python

Lihat Kursus

Petunjuk latihan

  • Buat classifier dp_GaussianNB tanpa parameter.
  • Latih model yang telah dibuat sebelumnya pada data tanpa parameter apa pun.
  • Hitung skor model privat berdasarkan data uji.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))
Edit dan Jalankan Kode