1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータプライバシーと匿名化

Connected

演習

機微なPIIのマスキング

あなたは、アメリカ市民の社会保障番号(SSN)、都市の所在地、年齢を含むデータセットを受け取りました。もしこのデータが未公開で、私たちへ共有することにのみ同意されていた場合、それを公開すると、対象者が想定していなかったデータを開示することになり、プライバシー侵害が発生します。

あなたの役割は、機微なPIIである ssn に対して部分的なマスキングを適用し、データを匿名化することです。データマスキングは、全体の形式や意味を保ちつつ、情報を隠蔽/難読化してプライバシー侵害を防ぐための手法であることを覚えておいてください。

データセットは insurance_df として読み込まれています。元の insurance_df をそのまま残すため、結果は masked_df に保存してください。

指示1 / 2

undefined XP
  • 1
    • masked_df の ssn 列を '*' でマスキングしてください。
    • .head() を使って、結果のDataFrameの先頭5行を確認してください。
  • 2
    • lambda 関数を使って ssn に部分的なマスキングを適用してください。各値 s に対して、先頭の1文字、"****"、末尾の1文字を連結します(例:"1****6")。