Clustering Wikipedia Teil I
Du hast im Video gesehen, dass „ TruncatedSVD “ PCA für spärliche Arrays im csr_matrix-Format, wie z. B. Wortfrequenz-Arrays, durchführen kann. Kombiniere dein Wissen über TruncatedSVD und k-means, um ein paar beliebte Seiten aus Wikipedia zu clustern. In dieser Übung baust du die Pipeline auf. In der nächsten Übung wirst du das Ganze auf die Wortfrequenz-Tabelle einiger Wikipedia-Artikel anwenden.
Erstell ein Pipeline-Objekt, das aus einem TruncatedSVD gefolgt von KMeans besteht. (Diesmal haben wir die Wortfrequenzmatrix schon für dich berechnet, sodass du keinen TfidfVectorizer brauchst).
Der Wikipedia-Datensatz, mit dem du arbeiten wirst, ist hier zu finden.
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importieren:
TruncatedSVDvonsklearn.decomposition.KMeansvonsklearn.cluster.make_pipelinevonsklearn.pipeline.
- Erstell eine „
TruncatedSVD“-Instanz namens „svd“ mit „n_components=50“. - Erstell eine „
KMeans“-Instanz namens „kmeans“ mit „n_clusters=6“. - Erstell eine Pipeline namens „
pipeline”, die aus „svd” und „kmeans” besteht.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____