Análisis de componentes principales

En los 2 últimos capítulos, viste varias formas de reducir la dimensionalidad de tu conjunto de datos, incluidas la regularización y la selección de características. Es importante saber explicar distintos aspectos de la reducción de dimensionalidad en una entrevista de Machine Learning. Los conjuntos de datos grandes tardan mucho en procesarse y el ruido en tus datos puede sesgar los resultados.

Una forma de reducir la dimensionalidad es el análisis de componentes principales. Es una manera eficaz de reducir el tamaño de los datos creando nuevas características que preservan la información más útil del conjunto de datos y, al mismo tiempo, eliminan la multicolinealidad. En este ejercicio, usarás el módulo sklearn.decomposition para realizar PCA sobre las características del conjunto de datos diabetes, aislando la variable objetivo progression.

Aquí es donde estás en el pipeline:

Pipeline de Machine learning

Este ejercicio forma parte del curso

Practicing Machine Learning Interview Questions in Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import module
from ____.____ import ____

# Feature matrix and target array
X = ____.____('____', axis=1)
y = ____['____']

Editar y ejecutar código