Aplicando k-anonimidade a um conjunto de dados

Neste exercício, você vai anonimizar o conjunto de dados de salários da NBA. Lembre-se: é preciso especificar os tipos de atributos para aplicar k-anonimidade. Eles podem ser identificadores, quase-identificadores, sensíveis ou não sensíveis. Aqui, vamos considerar age e nba_origin como quase-identificadores e salary como dado sensível.

Explore nba. Se você souber informações sobre um(a) jogador(a), como que ele(a) é da Espanha e tem 23 anos, então conseguirá descobrir um dado sensível como o salário dele(a)! Aqui, usaremos um valor de K igual a 3, garantindo que os atributos escolhidos não possam ser distinguidos de pelo menos k-1 outras linhas.

O dicionário de hierarquia para nba_Origin já foi criado como origin_hierarchy.

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Print how many unique combinations are for age and nba_origin
print(____)

Editar e Executar Código

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

AvançadoNível de habilidade

4.9+

Comece o curso gratuitamente

Prepare-se para aplicar técnicas de anonimização como supressão de dados, mascaramento, geração de dados sintéticos e generalização. Neste capítulo, você vai aprender a diferenciar informações pessoais identificáveis (PII) sensíveis e não sensíveis, quase-identificadores e o básico da GDPR. Você também verá exemplos reais do que pode dar errado se essas boas práticas não forem seguidas.

Exercise 1: O que é privado e por que isso importa?Exercise 2: Privacidade é poder Exercise 3: É sensível ou não sensível?Exercise 4: Supressão de atributos sensíveis Exercise 5: Mascaramento de dados e geração de dados com Faker Exercise 6: Mascarando PII sensível Exercise 7: Removendo nomes com faker Exercise 8: Anonimizando com generalização de dados Exercise 9: Reduzindo o risco de identificação com generalização Exercise 10: Agregação de dados e generalização de dados Exercise 11: Top e bottom coding em salários da Casa Branca

Descubra como anonimizar dados amostrando conjuntos de dados conforme a distribuição de probabilidade das colunas. Em seguida, você vai aprender a aplicar o modelo de privacidade k-anonymity para prevenir ataques de vinculação ou reidentificação e usar hierarquias para realizar generalização de dados em variáveis categóricas.

Exercise 1: Anonimizando dados categóricos Exercise 2: Explore a distribuição dos dados Exercise 3: Amostrando da mesma distribuição de probabilidade Exercise 4: Anonimizando dados contínuos Exercise 5: Distribuições diferentes Exercise 6: Amostragem da melhor distribuição contínua Exercise 7: Introdução ao k-anonymity Exercise 8: Atributos de privacidade Exercise 9: Generalizando em intervalos Exercise 10: Generalizando dados usando hierarquias Exercise 11: Usando hierarquias para dados categóricos Exercise 12: Aplicando k-anonimidade a um conjunto de dados

Exercicio Atual

Aprenda sobre privacidade diferencial, o modelo usado por grandes empresas de tecnologia como Apple, Google e Uber. Neste capítulo, você vai explorar dados gerando histogramas privados e calculando médias privadas. Você também vai criar modelos de Machine Learning com privacidade diferencial que permitem às empresas aumentar a utilidade dos seus dados.

Exercise 1: Introdução à privacidade diferencial Exercise 2: Epsilon (ϵ): o número mágico Exercise 3: Histogramas com privacidade diferencial Exercise 4: Orçamentos de privacidade Exercise 5: Usando orçamentos de privacidade Exercise 6: Quando não há orçamento restante Exercise 7: Explorando dados com um controlador de orçamento de privacidade Exercise 8: Modelos de Machine Learning com privacidade diferencial Exercise 9: Construa um classificador com privacidade diferencial Exercise 10: Prevendo salários Exercise 11: Modelos de agrupamento com privacidade diferencial Exercise 12: Pré-processamento de dados Exercise 13: Segmentação de clientes

Neste capítulo final, você vai aprender a aplicar métodos de redução de dimensionalidade, como a Análise de Componentes Principais (PCA), para anonimizar grandes conjuntos de dados com muitas colunas. Em seguida, você usará o Faker para gerar conjuntos de dados realistas e consistentes e o scikit-learn para criar conjuntos de dados sintéticos que seguem uma distribuição normal. Por fim, você vai juntar tudo o que aprendeu no curso ao combinar várias técnicas para liberar conjuntos de dados ao público com segurança.

Exercise 1: PCA para anonimização Exercise 2: Anonimização de dados de alta dimensionalidade Exercise 3: Mascaramento de dados com PCA Exercise 4: Gerando conjuntos de dados realistas com Faker Exercise 5: Conjunto de dados sintético consistente Exercise 6: Conjuntos de dados com a mesma distribuição probabilística Exercise 7: Criando conjuntos de dados sintéticos com scikit-learn Exercise 8: Gerando conjuntos de dados para classificação Exercise 9: Gerando conjuntos de dados para clustering Exercise 10: Liberar conjuntos de dados com segurança para o público Exercise 11: Explorando e pseudonimizando um conjunto de dados Exercise 12: Preparando dados de funcionários para liberação segura Exercise 13: Excelente trabalho!