La première composante principale
La première composante principale des données correspond à la direction dans laquelle les données varient le plus. Dans cet exercice, votre tâche consiste à utiliser l'ACP pour trouver la première composante principale des mesures de longueur et de largeur des échantillons de grains, puis à la représenter sous forme de flèche sur le graphique.
Le tableau grains
indique la longueur et la largeur des échantillons de grains. PyPlot (plt
) et PCA
ont déjà été importés pour vous.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Tracez un graphique en nuage de points représentant les mesures des grains. Cela a été fait pour vous.
- Veuillez créer une instance d'
PCA
nommée «model
». - Ajustez le modèle aux données de l'
grains
. - Extrayez les coordonnées de la moyenne des données à l'aide de l'attribut «
.mean_
» (coordonnées de la moyenne) de l'model
. - Obtenez la première composante principale de l'
model
e à l'aide de l'attribut.components_[0,:]
. - Représentez graphiquement la première composante principale sous forme de flèche sur le nuage de points, à l'aide de la fonction
plt.arrow()
. Vous devez spécifier les deux premiers arguments :mean[0]
etmean[1]
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Make a scatter plot of the untransformed points
plt.scatter(grains[:,0], grains[:,1])
# Create a PCA instance: model
model = ____
# Fit model to points
____
# Get the mean of the grain samples: mean
mean = ____
# Get the first principal component: first_pc
first_pc = ____
# Plot first_pc as an arrow, starting at mean
plt.arrow(____, ____, first_pc[0], first_pc[1], color='red', width=0.01)
# Keep axes on same scale
plt.axis('equal')
plt.show()