Enmascaramiento de datos con PCA
El uso de PCA para la seudoanonimización está muy extendido entre las empresas. En Kaggle encontrarás múltiples retos y conjuntos de datos en los que los datos se facilitan tras transformaciones con PCA.
Una versión diferencialmente privada de PCA también está incluida en diffprivlib dentro del módulo models. Se basa en la clase PCA de sklearn, pero incluye argumentos opcionales para épsilon y límites mínimo y máximo. Igual que vimos en el capítulo anterior.
En este ejercicio, aplicarás enmascaramiento de datos con PCA al conjunto de datos de salarios de la NBA, ya cargado como players.
Este ejercicio forma parte del curso
Privacidad de datos y anonimización en Python
Instrucciones del ejercicio
- Importa
PCAdesdesklearn. - Inicializa
PCA()con el número de componentes igual al número de columnas. - Aplica
pcaaplayers. - Revisa el conjunto de datos resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import PCA from Scikit-learn
____
# Initialize PCA with number of components to be the same as the number of columns
pca = ____
# Apply PCA to the data
players_pca = ____
# Print the resulting dataset
print(pd.DataFrame(players_pca))