Membangun classifier yang differentially private
Dalam latihan ini, Anda akan membangun dan melatih model Gaussian Naive Bayes privat pada himpunan data Penguin untuk mengklasifikasikan apakah seekor penguin berjenis kelamin jantan atau betina.
K-anonymity tidak bekerja dengan baik pada himpunan data berdimensi tinggi atau beragam karena keterbatasan teoretis dan empirisnya yang signifikan, yakni "kutukan dimensi". Seiring bertambahnya jumlah fitur atau dimensi, jumlah data yang dibutuhkan untuk melakukan generalisasi secara akurat meningkat secara eksponensial. Inilah salah satu alasan mengapa differential privacy menjadi model privasi yang saat ini lebih disukai. Nilai epsilon bersifat independen dari pengetahuan latar belakang apa pun dan "membatasi" informasi sensitif.
DataFrame dimuat sebagai penguin_df dan dibagi menjadi X_train, y_train, X_test, dan y_test. Kelas model privat telah diimpor sebagai dp_GaussianNB.
Latihan ini adalah bagian dari kursus
Privasi Data dan Anonimisasi di Python
Petunjuk latihan
- Buat classifier
dp_GaussianNBtanpa parameter. - Latih model yang telah dibuat sebelumnya pada data tanpa parameter apa pun.
- Hitung skor model privat berdasarkan data uji.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Built the private classifier without parameters
dp_clf = ____
# Fit the model to the data
____(X_train, y_train)
# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))