ComeçarComece de graça

Mascaramento de dados com PCA

O uso de PCA para pseudoanonimização é comum entre empresas. Você encontra vários desafios e conjuntos de dados no Kaggle em que os dados são fornecidos após transformações com PCA.

Uma versão diferencialmente privada de PCA também está incluída no diffprivlib, no módulo models. Ela é baseada na classe PCA do sklearn, mas inclui argumentos opcionais para epsilon e limites mínimo e máximo. Exatamente como vimos no capítulo anterior.

Neste exercício, você vai aplicar mascaramento de dados com PCA no conjunto de dados de salários da NBA, já carregado como players.

Este exercício faz parte do curso

Privacidade de Dados e Anonimização em Python

Ver curso

Instruções do exercício

  • Importe PCA do sklearn.
  • Inicialize PCA() com o número de componentes igual ao número de colunas.
  • Aplique pca a players.
  • Veja o conjunto de dados resultante.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import PCA from Scikit-learn
____

# Initialize PCA with number of components to be the same as the number of columns
pca = ____

# Apply PCA to the data
players_pca = ____

# Print the resulting dataset
print(pd.DataFrame(players_pca))
Editar e executar o código