Analyse en composantes principales

Dans les 2 derniers chapitres, vous avez vu différentes façons de réduire la dimensionnalité de votre jeu de données, notamment la régularisation et la sélection de variables. Il est important de pouvoir expliquer les différents aspects de la réduction de dimensionnalité lors d’un entretien en Machine Learning. Les grands jeux de données sont longs à traiter, et le bruit dans vos données peut biaiser vos résultats.

Une façon de réduire la dimensionnalité est l’analyse en composantes principales (ACP). C’est une méthode efficace pour réduire la taille des données en créant de nouvelles variables qui conservent l’information la plus utile d’un jeu de données tout en éliminant la multicolinéarité. Dans cet exercice, vous utiliserez le module sklearn.decomposition pour effectuer une ACP sur les variables explicatives du jeu de données diabetes tout en isolant la variable cible progression.

Voici où vous en êtes dans le pipeline :

Machine learning pipeline

Cet exercice fait partie du cours

S’entraîner aux questions d’entretien en Machine Learning avec Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import module
from ____.____ import ____

# Feature matrix and target array
X = ____.____('____', axis=1)
y = ____['____']

Modifier et exécuter le code