LoslegenKostenlos loslegen

Clustering Wikipedia Teil I

Du hast im Video gesehen, dass „ TruncatedSVD “ PCA für spärliche Arrays im csr_matrix-Format, wie z. B. Wortfrequenz-Arrays, durchführen kann. Kombiniere dein Wissen über TruncatedSVD und k-means, um ein paar beliebte Seiten aus Wikipedia zu clustern. In dieser Übung baust du die Pipeline auf. In der nächsten Übung wirst du das Ganze auf die Wortfrequenz-Tabelle einiger Wikipedia-Artikel anwenden.

Erstell ein Pipeline-Objekt, das aus einem TruncatedSVD gefolgt von KMeans besteht. (Diesmal haben wir die Wortfrequenzmatrix schon für dich berechnet, sodass du keinen TfidfVectorizer brauchst).

Der Wikipedia-Datensatz, mit dem du arbeiten wirst, ist hier zu finden.

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Kurs anzeigen

Anleitung zur Übung

  • Importieren:
    • TruncatedSVD von sklearn.decomposition.
    • KMeans von sklearn.cluster.
    • make_pipeline von sklearn.pipeline.
  • Erstell eine „ TruncatedSVD “-Instanz namens „ svd “ mit „ n_components=50 “.
  • Erstell eine „ KMeans “-Instanz namens „ kmeans “ mit „ n_clusters=6 “.
  • Erstell eine Pipeline namens „ pipeline ”, die aus „ svd ” und „ kmeans ” besteht.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Code bearbeiten und ausführen