차등 개인정보 보호 분류기 만들기

이 연습 문제에서는 Penguin 데이터셋에 대해 개인 정보 보호 Gaussian Naive Bayes 모델을 구축하고 학습하여 펭귄의 성별(수컷/암컷)을 분류해 보겠습니다.

k-익명성은 이론적·실증적 한계가 크고, 이른바 "차원의 저주" 때문에 고차원 또는 다양성이 큰 데이터셋에서는 잘 작동하지 않습니다. 특징(차원) 수가 늘어날수록 정확하게 일반화하는 데 필요한 데이터 양이 기하급수적으로 증가합니다. 이런 이유로 차등 개인정보 보호가 현재 선호되는 프라이버시 모델입니다. 엡실론은 어떤 배경지식과도 독립적이며 민감한 정보의 노출을 "경계(bound)"합니다.

DataFrame은 penguin_df로 로드되어 X_train, y_train, X_test, y_test로 분할되어 있습니다. 개인 정보 보호 모델 클래스는 dp_GaussianNB로 임포트되어 있습니다.