Regroupement de Wikipédia, partie I
Vous avez pu constater dans la vidéo que la fonction TruncatedSVD
est capable d'effectuer une ACP sur des tableaux clairsemés au format csr_matrix, tels que des tableaux de fréquence de mots. Combinez vos connaissances en matière de TruncatedSVD et de k-means pour regrouper certaines pages populaires de Wikipédia. Dans cet exercice, veuillez construire le pipeline. Dans l'exercice suivant, vous appliquerez cela au tableau de fréquence des mots de certains articles Wikipédia.
Créez un objet Pipeline composé d'un TruncatedSVD suivi d'un KMeans. (Cette fois-ci, nous avons précalculé la matrice de fréquence des mots pour vous, vous n'avez donc pas besoin d'un TfidfVectorizer).
L'ensemble de données Wikipédia sur lequel vous allez travailler a été obtenu ici.
Cet exercice fait partie du cours
Apprentissage non supervisé en Python
Instructions
- Importation :
TruncatedSVD
Extrait desklearn.decomposition
.KMeans
Extrait desklearn.cluster
.make_pipeline
Extrait desklearn.pipeline
.
- Veuillez créer une instance d'
TruncatedSVD
appelée «svd
» avec l'adressen_components=50
. - Veuillez créer une instance d'
KMeans
appelée «kmeans
» avec l'adressen_clusters=6
. - Veuillez créer un pipeline nommé «
pipeline
» composé de «svd
» et «kmeans
».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____