Prevendo salários

Neste exercício, você vai usar o conjunto de dados de renda do censo para prever se as pessoas têm salário acima de US$ 50 mil/ano ou não.

Lembre-se de que você deve especificar os limites (bounds) como parâmetro ao criar o modelo privado para garantir que não haja perda adicional de privacidade ou vazamento de informação. Normalmente, você pode escolher os limites de forma independente dos dados, usando conhecimento de domínio ou buscando com um histograma DP.

O conjunto de dados já foi carregado e dividido em X_train, y_train, X_test e y_test. O classificador está disponível como dp_GaussianNB.

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

Instruções do exercicio

Defina os limites do modelo calculando os valores min e max nos dados de treino e adicionando ruído aleatório ao subtrair e somar números aleatórios no intervalo de 5 a 40 para as 5 colunas do nosso conjunto de dados.
Crie um classificador dp_GaussianNB com epsilon igual a 0.5 e os limites definidos anteriormente.
Ajuste (fit) o modelo aos dados e verifique o score.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Set the min and max of bounds for the data and add noise using random
bounds = (X_train.____(axis=0) - random.____(range(5, 40), 5), 
          ____)

# Built the classifier with epsilon of 0.5
dp_clf = ____(epsilon=____, bounds=____)

# Fit the model to the data and print the score
____
print("The accuracy of the differentially private model is ",
       dp_clf.score(X_test, y_test))

Editar e Executar Código

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

AvançadoNível de habilidade

4.9+

Comece o curso gratuitamente

Prepare-se para aplicar técnicas de anonimização como supressão de dados, mascaramento, geração de dados sintéticos e generalização. Neste capítulo, você vai aprender a diferenciar informações pessoais identificáveis (PII) sensíveis e não sensíveis, quase-identificadores e o básico da GDPR. Você também verá exemplos reais do que pode dar errado se essas boas práticas não forem seguidas.

Exercise 1: O que é privado e por que isso importa?Exercise 2: Privacidade é poder Exercise 3: É sensível ou não sensível?Exercise 4: Supressão de atributos sensíveis Exercise 5: Mascaramento de dados e geração de dados com Faker Exercise 6: Mascarando PII sensível Exercise 7: Removendo nomes com faker Exercise 8: Anonimizando com generalização de dados Exercise 9: Reduzindo o risco de identificação com generalização Exercise 10: Agregação de dados e generalização de dados Exercise 11: Top e bottom coding em salários da Casa Branca

Descubra como anonimizar dados amostrando conjuntos de dados conforme a distribuição de probabilidade das colunas. Em seguida, você vai aprender a aplicar o modelo de privacidade k-anonymity para prevenir ataques de vinculação ou reidentificação e usar hierarquias para realizar generalização de dados em variáveis categóricas.

Exercise 1: Anonimizando dados categóricos Exercise 2: Explore a distribuição dos dados Exercise 3: Amostrando da mesma distribuição de probabilidade Exercise 4: Anonimizando dados contínuos Exercise 5: Distribuições diferentes Exercise 6: Amostragem da melhor distribuição contínua Exercise 7: Introdução ao k-anonymity Exercise 8: Atributos de privacidade Exercise 9: Generalizando em intervalos Exercise 10: Generalizando dados usando hierarquias Exercise 11: Usando hierarquias para dados categóricos Exercise 12: Aplicando k-anonimidade a um conjunto de dados

Aprenda sobre privacidade diferencial, o modelo usado por grandes empresas de tecnologia como Apple, Google e Uber. Neste capítulo, você vai explorar dados gerando histogramas privados e calculando médias privadas. Você também vai criar modelos de Machine Learning com privacidade diferencial que permitem às empresas aumentar a utilidade dos seus dados.

Exercise 1: Introdução à privacidade diferencial Exercise 2: Epsilon (ϵ): o número mágico Exercise 3: Histogramas com privacidade diferencial Exercise 4: Orçamentos de privacidade Exercise 5: Usando orçamentos de privacidade Exercise 6: Quando não há orçamento restante Exercise 7: Explorando dados com um controlador de orçamento de privacidade Exercise 8: Modelos de Machine Learning com privacidade diferencial Exercise 9: Construa um classificador com privacidade diferencial Exercise 10: Prevendo salários

Exercicio Atual

Exercise 11: Modelos de agrupamento com privacidade diferencial Exercise 12: Pré-processamento de dados Exercise 13: Segmentação de clientes

Neste capítulo final, você vai aprender a aplicar métodos de redução de dimensionalidade, como a Análise de Componentes Principais (PCA), para anonimizar grandes conjuntos de dados com muitas colunas. Em seguida, você usará o Faker para gerar conjuntos de dados realistas e consistentes e o scikit-learn para criar conjuntos de dados sintéticos que seguem uma distribuição normal. Por fim, você vai juntar tudo o que aprendeu no curso ao combinar várias técnicas para liberar conjuntos de dados ao público com segurança.

Exercise 1: PCA para anonimização Exercise 2: Anonimização de dados de alta dimensionalidade Exercise 3: Mascaramento de dados com PCA Exercise 4: Gerando conjuntos de dados realistas com Faker Exercise 5: Conjunto de dados sintético consistente Exercise 6: Conjuntos de dados com a mesma distribuição probabilística Exercise 7: Criando conjuntos de dados sintéticos com scikit-learn Exercise 8: Gerando conjuntos de dados para classificação Exercise 9: Gerando conjuntos de dados para clustering Exercise 10: Liberar conjuntos de dados com segurança para o público Exercise 11: Explorando e pseudonimizando um conjunto de dados Exercise 12: Preparando dados de funcionários para liberação segura Exercise 13: Excelente trabalho!