Regroupement Wikipédia, partie I

Vous avez observé dans la vidéo que TruncatedSVD est capable d'effectuer une ACP sur des tableaux clairsemés au format csr_matrix, tels que les tableaux de fréquence des mots. Veuillez combiner vos connaissances de TruncatedSVD et k-means pour regrouper certaines pages populaires de Wikipédia. Dans cet exercice, veuillez construire le pipeline. Dans l'exercice suivant, vous l'appliquerez au tableau de fréquence des mots de certains articles Wikipédia.

Créez un objet Pipeline composé d'un TruncatedSVD suivi d'un KMeans. (Cette fois-ci, nous avons précalculé la matrice de fréquence des mots pour vous, vous n'avez donc pas besoin d'un TfidfVectorizer).

L'ensemble de données Wikipédia sur lequel vous allez travailler a été obtenu à partir de ici.

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

Instructions de l’exercice

Importation :
- TruncatedSVD depuis sklearn.decomposition.
- KMeans depuis sklearn.cluster.
- make_pipeline depuis sklearn.pipeline.
Créer une instance TruncatedSVD nommée svd avec n_components=50.
Créer une instance KMeans nommée kmeans avec n_clusters=6.
Créer un pipeline nommé pipeline composé de svd et kmeans.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Apprenez à identifier les groupes sous-jacents (ou « clusters ») dans un ensemble de données. À la fin de ce chapitre, vous serez en mesure de regrouper des entreprises en fonction de leurs cours boursiers et de distinguer différentes espèces en regroupant leurs mesures.

Exercise 1: Apprentissage non supervisé Exercise 2: Combien de clusters ?Exercise 3: Regroupement de points 2D Exercise 4: Inspecter votre clustering Exercise 5: Évaluation d'un regroupement Exercise 6: Combien de clusters pour les grains ?Exercise 7: Évaluer le clustering des grains Exercise 8: Transformation des caractéristiques pour améliorer les regroupements Exercise 9: Mise à l'échelle des données sur les poissons pour le regroupement Exercise 10: Regroupement des données sur les poissons Exercise 11: Regroupement des actions à l'aide de KMeans Exercise 12: Quelles actions évoluent de manière similaire ?

Dans ce chapitre, vous découvrirez deux techniques d'apprentissage non supervisé pour la visualisation des données : le regroupement hiérarchique et le t-SNE. Le regroupement hiérarchique fusionne les échantillons de données en grappes de plus en plus grossières, ce qui permet d'obtenir une visualisation arborescente de la hiérarchie des grappes obtenue. Le t-SNE mappe les échantillons de données dans un espace 2D afin de visualiser la proximité des échantillons les uns par rapport aux autres.

Exercise 1: Visualisation des hiérarchies Exercise 2: Combien de fusions ?Exercise 3: Regroupement hiérarchique des données relatives aux grains Exercise 4: Hiérarchies d’actions Exercise 5: Étiquettes de clusters dans le regroupement hiérarchique Exercise 6: Quels sont les groupes les plus proches ?Exercise 7: Différents liens, différents regroupements hiérarchiques !Exercise 8: Regroupements intermédiaires Exercise 9: Extraction des étiquettes de cluster Exercise 10: t-SNE pour les cartes en deux dimensions Exercise 11: Visualisation t-SNE de l'ensemble de données sur les céréales Exercise 12: Une carte t-SNE du marché boursier

La réduction de dimension résume un ensemble de données à l'aide de ses modèles courants. Dans ce chapitre, vous découvrirez la technique de réduction de dimension la plus fondamentale, l'« analyse en composantes principales » (PCA). La PCA est souvent utilisée avant l'apprentissage supervisé afin d'améliorer les performances et la généralisation du modèle. Elle peut également être utile pour l'apprentissage non supervisé. Par exemple, vous utiliserez une variante de la PCA qui vous permettra de regrouper les articles de Wikipédia en fonction de leur contenu.

Exercise 1: Visualisation de la transformation PCA Exercise 2: Données corrélées dans la nature Exercise 3: Décorréler les mesures des grains avec la PCA Exercise 4: Composantes principales Exercise 5: Dimension intrinsèque Exercise 6: La première composante principale Exercise 7: Variance des caractéristiques PCA Exercise 8: Dimension intrinsèque des données sur les poissons Exercise 9: Réduction de dimension avec PCA Exercise 10: Réduction des dimensions des mesures des poissons Exercise 11: Tableau de fréquence des mots tf-idf Exercise 12: Regroupement Wikipédia, partie I

Exercice actuel

Exercise 13: Regroupement Wikipédia, partie II

Dans ce chapitre, vous découvrirez une technique de réduction de dimension appelée « factorisation matricielle non négative » (NMF) qui exprime les échantillons sous forme de combinaisons de parties interprétables. Par exemple, elle exprime les documents sous forme de combinaisons de thèmes et les images en termes de motifs visuels courants. Vous apprendrez également à utiliser la NMF pour créer des systèmes de recommandation capables de vous trouver des articles similaires à lire ou des artistes musicaux qui correspondent à votre historique d'écoute.

Exercise 1: Factorisation non-négative de la matrice (NMF)Exercise 2: Données non négatives Exercise 3: NMF appliquée aux articles Wikipédia Exercise 4: Caractéristiques NMF des articles Wikipédia Exercise 5: NMF reconstruit les échantillons Exercise 6: La NMF identifie les parties interprétables Exercise 7: NMF apprend les sujets des documents Exercise 8: Explorer le jeu de données de chiffres LED Exercise 9: Le NMF apprend les composants des images Exercise 10: La PCA n'apprend pas les parties Exercise 11: Développement de systèmes de recommandation à l'aide de la NMF Exercise 12: Quels articles sont similaires à « Cristiano Ronaldo » ?Exercise 13: Recommander des artistes musicaux, partie I Exercise 14: Recommander des artistes musicaux, partie II Exercise 15: Dernières réflexions