LoslegenKostenlos loslegen

Wikipedia clustern, Teil I

Im Video hast du gesehen, dass TruncatedSVD PCA auf „sparse Arrays“ im csr_matrix-Format ausführen kann, zum Beispiel auf Worthäufigkeit-Arrays. Kombiniere dein Wissen über TruncatedSVD und k-means, um einige beliebte Wikipedia-Seiten zu clustern. In dieser Übung baust du die Pipeline dafür. In der nächsten Übung wendest du sie auf das Worthäufigkeit-Array einiger Wikipedia-Artikel an.

Erstelle ein Pipeline-Objekt, das aus einer TruncatedSVD gefolgt von KMeans besteht. (Diesmal haben wir die Worthäufigkeit-Matrix bereits für dich berechnet, daher brauchst du keinen TfidfVectorizer.)

Der Wikipedia-Datensatz, mit dem du arbeitest, stammt von hier.

Diese Übung ist Teil des Kurses

Unsupervised Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere:
    • TruncatedSVD aus sklearn.decomposition.
    • KMeans aus sklearn.cluster.
    • make_pipeline aus sklearn.pipeline.
  • Erstelle eine TruncatedSVD-Instanz namens svd mit n_components=50.
  • Erstelle eine KMeans-Instanz namens kmeans mit n_clusters=6.
  • Erstelle eine Pipeline namens pipeline, die aus svd und kmeans besteht.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Code bearbeiten und ausführen