Regroupement Wikipédia, partie I
Vous avez observé dans la vidéo que TruncatedSVD est capable d'effectuer une ACP sur des tableaux clairsemés au format csr_matrix, tels que les tableaux de fréquence des mots. Veuillez combiner vos connaissances de TruncatedSVD et k-means pour regrouper certaines pages populaires de Wikipédia. Dans cet exercice, veuillez construire le pipeline. Dans l'exercice suivant, vous l'appliquerez au tableau de fréquence des mots de certains articles Wikipédia.
Créez un objet Pipeline composé d'un TruncatedSVD suivi d'un KMeans. (Cette fois-ci, nous avons précalculé la matrice de fréquence des mots pour vous, vous n'avez donc pas besoin d'un TfidfVectorizer).
L'ensemble de données Wikipédia sur lequel vous allez travailler a été obtenu à partir de ici.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importation :
TruncatedSVDdepuissklearn.decomposition.KMeansdepuissklearn.cluster.make_pipelinedepuissklearn.pipeline.
- Créer une instance
TruncatedSVDnomméesvdavecn_components=50. - Créer une instance
KMeansnomméekmeansavecn_clusters=6. - Créer un pipeline nommé
pipelinecomposé desvdetkmeans.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____