La première composante principale

La première composante principale des données correspond à la direction dans laquelle les données varient le plus. Dans cet exercice, votre tâche consiste à utiliser la PCA pour trouver la première composante principale des mesures de longueur et de largeur des échantillons de grains, et à la représenter sous forme de flèche sur le graphique.

Le tableau grains fournit la longueur et la largeur des échantillons de grains. PyPlot (plt) et PCA ont déjà été importés pour vous.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

Créez un graphique à partir des mesures des grains. Cela a déjà été fait pour vous.
Créez une instance PCA appelée model.
Ajustez le modèle aux données grains.
Extrayez les coordonnées de la moyenne des données à l'aide de l'attribut .mean_ de model.
Obtenez la première composante principale de model à l'aide de l'attribut .components_[0,:].
Créez un graphique de la première composante principale sous forme de flèche sur le nuage de points, à l'aide de la fonction plt.arrow(). Vous devez spécifier les deux premiers arguments : mean[0] et mean[1].

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Make a scatter plot of the untransformed points
plt.scatter(grains[:,0], grains[:,1])

# Create a PCA instance: model
model = ____

# Fit model to points
____

# Get the mean of the grain samples: mean
mean = ____

# Get the first principal component: first_pc
first_pc = ____

# Plot first_pc as an arrow, starting at mean
plt.arrow(____, ____, first_pc[0], first_pc[1], color='red', width=0.01)

# Keep axes on same scale
plt.axis('equal')
plt.show()

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Apprenez à identifier les groupes sous-jacents (ou « clusters ») dans un ensemble de données. À la fin de ce chapitre, vous serez en mesure de regrouper des entreprises en fonction de leurs cours boursiers et de distinguer différentes espèces en regroupant leurs mesures.

Exercise 1: Apprentissage non supervisé Exercise 2: Combien de clusters ?Exercise 3: Regroupement de points 2D Exercise 4: Inspecter votre clustering Exercise 5: Évaluation d'un regroupement Exercise 6: Combien de clusters pour les grains ?Exercise 7: Évaluer le clustering des grains Exercise 8: Transformation des caractéristiques pour améliorer les regroupements Exercise 9: Mise à l'échelle des données sur les poissons pour le regroupement Exercise 10: Regroupement des données sur les poissons Exercise 11: Regroupement des actions à l'aide de KMeans Exercise 12: Quelles actions évoluent de manière similaire ?

Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données : le regroupement hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus grossières, ce qui permet d'obtenir une visualisation arborescente de la hiérarchie des grappes obtenue. Le t-SNE mappe les échantillons de données dans un espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.

Exercise 1: Visualisation des hiérarchies Exercise 2: Combien de fusions ?Exercise 3: Regroupement hiérarchique des données relatives aux grains Exercise 4: Hiérarchies d’actions Exercise 5: Étiquettes de clusters dans le regroupement hiérarchique Exercise 6: Quels sont les groupes les plus proches ?Exercise 7: Différents liens, différents regroupements hiérarchiques !Exercise 8: Regroupements intermédiaires Exercise 9: Extraction des étiquettes de cluster Exercise 10: t-SNE pour les cartes en deux dimensions Exercise 11: Visualisation t-SNE de l'ensemble de données sur les céréales Exercise 12: Une carte t-SNE du marché boursier

La réduction de dimension résume un ensemble de données à l'aide de ses modèles courants. Dans ce chapitre, vous découvrirez la technique de réduction de dimension la plus fondamentale, l'« analyse en composantes principales » (PCA). La PCA est souvent utilisée avant l'apprentissage supervisé afin d'améliorer les performances et la généralisation du modèle. Elle peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de la PCA qui vous permettra de regrouper les articles de Wikipédia en fonction de leur contenu.

Exercise 1: Visualisation de la transformation PCA Exercise 2: Données corrélées dans la nature Exercise 3: Décorréler les mesures des grains avec la PCA Exercise 4: Composantes principales Exercise 5: Dimension intrinsèque Exercise 6: La première composante principale

Exercice en cours

Exercise 7: Variance des caractéristiques PCA Exercise 8: Dimension intrinsèque des données sur les poissons Exercise 9: Réduction de dimension avec PCA Exercise 10: Réduction des dimensions des mesures des poissons Exercise 11: Tableau de fréquence des mots tf-idf Exercise 12: Regroupement Wikipédia, partie I Exercise 13: Regroupement Wikipédia, partie II

Dans ce chapitre, vous découvrirez une technique de réduction de dimension appelée « factorisation matricielle non négative » (NMF) qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, elle exprime les documents sous forme de combinaisons de thèmes et les images en termes de motifs visuels courants. Vous apprendrez également à utiliser la NMF pour créer des systèmes de recommandation capables de vous trouver des articles similaires à lire ou des artistes musicaux qui correspondent à votre historique d'écoute.

Exercise 1: Factorisation non-négative de la matrice (NMF)Exercise 2: Données non négatives Exercise 3: NMF appliquée aux articles Wikipédia Exercise 4: Caractéristiques NMF des articles Wikipédia Exercise 5: NMF reconstruit les échantillons Exercise 6: La NMF identifie les parties interprétables Exercise 7: NMF apprend les sujets des documents Exercise 8: Explorer le jeu de données de chiffres LED Exercise 9: Le NMF apprend les composants des images Exercise 10: La PCA n'apprend pas les parties Exercise 11: Développement de systèmes de recommandation à l'aide de la NMF Exercise 12: Quels articles sont similaires à « Cristiano Ronaldo » ?Exercise 13: Recommander des artistes musicaux, partie I Exercise 14: Recommander des artistes musicaux, partie II Exercise 15: Dernières réflexions