Preparando dados de funcionários para liberação segura

Ao lidar com dados reais, você precisa garantir que não haja como as informações pessoais dos seus clientes ou de outras pessoas serem rastreadas ou expostas. Neste exercício, você vai usar uma versão simplificada do conjunto de dados IBM HR Analytics Employee para praticar técnicas de supressão e generalização.

Para evitar o vazamento de informações sobre o conjunto de dados, você vai substituir os nomes das colunas por números.

O DataFrame foi carregado como hr. Use o console para explorá-lo. numpy foi importado como np.

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1) 

# Drop the rows with NaN values
df_cleaned = ____

Editar e Executar Código

Este exercicio faz parte do curso

Privacidade de Dados e Anonimização em Python

AvançadoNível de habilidade

4.9+

Comece o curso gratuitamente

Prepare-se para aplicar técnicas de anonimização como supressão de dados, mascaramento, geração de dados sintéticos e generalização. Neste capítulo, você vai aprender a diferenciar informações pessoais identificáveis (PII) sensíveis e não sensíveis, quase-identificadores e o básico da GDPR. Você também verá exemplos reais do que pode dar errado se essas boas práticas não forem seguidas.

Exercise 1: O que é privado e por que isso importa?Exercise 2: Privacidade é poder Exercise 3: É sensível ou não sensível?Exercise 4: Supressão de atributos sensíveis Exercise 5: Mascaramento de dados e geração de dados com Faker Exercise 6: Mascarando PII sensível Exercise 7: Removendo nomes com faker Exercise 8: Anonimizando com generalização de dados Exercise 9: Reduzindo o risco de identificação com generalização Exercise 10: Agregação de dados e generalização de dados Exercise 11: Top e bottom coding em salários da Casa Branca

Descubra como anonimizar dados amostrando conjuntos de dados conforme a distribuição de probabilidade das colunas. Em seguida, você vai aprender a aplicar o modelo de privacidade k-anonymity para prevenir ataques de vinculação ou reidentificação e usar hierarquias para realizar generalização de dados em variáveis categóricas.

Exercise 1: Anonimizando dados categóricos Exercise 2: Explore a distribuição dos dados Exercise 3: Amostrando da mesma distribuição de probabilidade Exercise 4: Anonimizando dados contínuos Exercise 5: Distribuições diferentes Exercise 6: Amostragem da melhor distribuição contínua Exercise 7: Introdução ao k-anonymity Exercise 8: Atributos de privacidade Exercise 9: Generalizando em intervalos Exercise 10: Generalizando dados usando hierarquias Exercise 11: Usando hierarquias para dados categóricos Exercise 12: Aplicando k-anonimidade a um conjunto de dados

Aprenda sobre privacidade diferencial, o modelo usado por grandes empresas de tecnologia como Apple, Google e Uber. Neste capítulo, você vai explorar dados gerando histogramas privados e calculando médias privadas. Você também vai criar modelos de Machine Learning com privacidade diferencial que permitem às empresas aumentar a utilidade dos seus dados.

Exercise 1: Introdução à privacidade diferencial Exercise 2: Epsilon (ϵ): o número mágico Exercise 3: Histogramas com privacidade diferencial Exercise 4: Orçamentos de privacidade Exercise 5: Usando orçamentos de privacidade Exercise 6: Quando não há orçamento restante Exercise 7: Explorando dados com um controlador de orçamento de privacidade Exercise 8: Modelos de Machine Learning com privacidade diferencial Exercise 9: Construa um classificador com privacidade diferencial Exercise 10: Prevendo salários Exercise 11: Modelos de agrupamento com privacidade diferencial Exercise 12: Pré-processamento de dados Exercise 13: Segmentação de clientes

Neste capítulo final, você vai aprender a aplicar métodos de redução de dimensionalidade, como a Análise de Componentes Principais (PCA), para anonimizar grandes conjuntos de dados com muitas colunas. Em seguida, você usará o Faker para gerar conjuntos de dados realistas e consistentes e o scikit-learn para criar conjuntos de dados sintéticos que seguem uma distribuição normal. Por fim, você vai juntar tudo o que aprendeu no curso ao combinar várias técnicas para liberar conjuntos de dados ao público com segurança.

Exercise 1: PCA para anonimização Exercise 2: Anonimização de dados de alta dimensionalidade Exercise 3: Mascaramento de dados com PCA Exercise 4: Gerando conjuntos de dados realistas com Faker Exercise 5: Conjunto de dados sintético consistente Exercise 6: Conjuntos de dados com a mesma distribuição probabilística Exercise 7: Criando conjuntos de dados sintéticos com scikit-learn Exercise 8: Gerando conjuntos de dados para classificação Exercise 9: Gerando conjuntos de dados para clustering Exercise 10: Liberar conjuntos de dados com segurança para o público Exercise 11: Explorando e pseudonimizando um conjunto de dados Exercise 12: Preparando dados de funcionários para liberação segura

Exercicio Atual

Exercise 13: Excelente trabalho!