1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

민감한 PII 마스킹하기

미국 시민의 사회보장번호(SSN), 거주 도시, 나이가 포함된 데이터셋이 제공되었습니다. 이 데이터가 우리에게만 공유하도록 동의된 미공개 데이터라면, 외부에 노출할 경우 당사자가 예상하지 못한 정보가 공개되어 프라이버시 침해가 발생합니다.

여러분의 작업은 민감한 PII인 ssn에 부분 마스킹을 적용해 데이터를 익명화하는 것입니다. 데이터 마스킹은 전체 형식과 의미를 유지하면서, 프라이버시 침해를 피하기 위해 데이터를 숨기거나 난독화하는 방법이라는 점을 기억하세요.

데이터셋은 insurance_df로 로드되어 있으며, 원본 insurance_df를 그대로 유지하기 위해 결과는 masked_df에 저장하세요.

지침 1/2

undefined XP
  • 1
    • masked_df의 ssn 열을 '*'로 마스킹하세요.
    • .head()를 사용해 결과 DataFrame의 처음 5행을 확인하세요.
  • 2
    • lambda 함수를 사용해 ssn에 부분 마스킹을 적용하세요. 각 문자열 s에 대해 첫 글자와 "****", 마지막 글자를 이어 붙이세요(예: "1****6").