Mascaramento de dados com PCA
O uso de PCA para pseudoanonimização é comum entre empresas. Você encontra vários desafios e conjuntos de dados no Kaggle em que os dados são fornecidos após transformações com PCA.
Uma versão diferencialmente privada de PCA também está incluída no diffprivlib, no módulo models. Ela é baseada na classe PCA do sklearn, mas inclui argumentos opcionais para epsilon e limites mínimo e máximo. Exatamente como vimos no capítulo anterior.
Neste exercício, você vai aplicar mascaramento de dados com PCA no conjunto de dados de salários da NBA, já carregado como players.
Este exercício faz parte do curso
Privacidade de Dados e Anonimização em Python
Instruções do exercício
- Importe
PCAdosklearn. - Inicialize
PCA()com o número de componentes igual ao número de colunas. - Aplique
pcaaplayers. - Veja o conjunto de dados resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import PCA from Scikit-learn
____
# Initialize PCA with number of components to be the same as the number of columns
pca = ____
# Apply PCA to the data
players_pca = ____
# Print the resulting dataset
print(pd.DataFrame(players_pca))