1. Apprendre
  2. /
  3. Cours
  4. /
  5. Unsupervised Learning in Python

Connected

Exercice

Regrouper des pages Wikipédia, partie I

Vous avez vu dans la vidéo que TruncatedSVD peut effectuer une ACP (PCA) sur des tableaux creux au format csr_matrix, comme les tableaux de fréquences de mots. Combinez vos connaissances de TruncatedSVD et de k-means pour regrouper quelques pages populaires de Wikipédia. Dans cet exercice, construisez la chaîne de traitement (pipeline). Dans le prochain, vous l'appliquerez au tableau de fréquences de mots de certains articles de Wikipédia.

Créez un objet Pipeline composé d'un TruncatedSVD suivi de KMeans. (Cette fois, nous avons déjà calculé la matrice de fréquences de mots pour vous, donc pas besoin de TfidfVectorizer).

Le jeu de données Wikipédia que vous utiliserez provient d'ici.

Instructions

100 XP
  • Importez :
    • TruncatedSVD de sklearn.decomposition.
    • KMeans de sklearn.cluster.
    • make_pipeline de sklearn.pipeline.
  • Créez une instance de TruncatedSVD appelée svd avec n_components=50.
  • Créez une instance de KMeans appelée kmeans avec n_clusters=6.
  • Créez une chaîne de traitement appelée pipeline composée de svd et kmeans.