CommencerCommencer gratuitement

Regroupement de Wikipédia, partie I

Vous avez pu constater dans la vidéo que la fonction TruncatedSVD est capable d'effectuer une ACP sur des tableaux clairsemés au format csr_matrix, tels que des tableaux de fréquence de mots. Combinez vos connaissances en matière de TruncatedSVD et de k-means pour regrouper certaines pages populaires de Wikipédia. Dans cet exercice, veuillez construire le pipeline. Dans l'exercice suivant, vous appliquerez cela au tableau de fréquence des mots de certains articles Wikipédia.

Créez un objet Pipeline composé d'un TruncatedSVD suivi d'un KMeans. (Cette fois-ci, nous avons précalculé la matrice de fréquence des mots pour vous, vous n'avez donc pas besoin d'un TfidfVectorizer).

L'ensemble de données Wikipédia sur lequel vous allez travailler a été obtenu ici.

Cet exercice fait partie du cours

Apprentissage non supervisé en Python

Afficher le cours

Instructions

  • Importation :
    • TruncatedSVD Extrait de sklearn.decomposition.
    • KMeans Extrait de sklearn.cluster.
    • make_pipeline Extrait de sklearn.pipeline.
  • Veuillez créer une instance d'TruncatedSVD appelée « svd » avec l'adresse n_components=50.
  • Veuillez créer une instance d'KMeans appelée « kmeans » avec l'adresse n_clusters=6.
  • Veuillez créer un pipeline nommé « pipeline » composé de « svd » et « kmeans ».

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Modifier et exécuter le code