Clustering Wikipedia Teil I
Du hast im Video gesehen, dass „ TruncatedSVD
“ PCA für spärliche Arrays im csr_matrix-Format, wie z. B. Wortfrequenz-Arrays, durchführen kann. Kombiniere dein Wissen über TruncatedSVD und k-means, um ein paar beliebte Seiten aus Wikipedia zu clustern. In dieser Übung baust du die Pipeline auf. In der nächsten Übung wirst du das Ganze auf die Wortfrequenz-Tabelle einiger Wikipedia-Artikel anwenden.
Erstell ein Pipeline-Objekt, das aus einem TruncatedSVD gefolgt von KMeans besteht. (Diesmal haben wir die Wortfrequenzmatrix schon für dich berechnet, sodass du keinen TfidfVectorizer brauchst).
Der Wikipedia-Datensatz, mit dem du arbeiten wirst, ist hier zu finden.
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importieren:
TruncatedSVD
vonsklearn.decomposition
.KMeans
vonsklearn.cluster
.make_pipeline
vonsklearn.pipeline
.
- Erstell eine „
TruncatedSVD
“-Instanz namens „svd
“ mit „n_components=50
“. - Erstell eine „
KMeans
“-Instanz namens „kmeans
“ mit „n_clusters=6
“. - Erstell eine Pipeline namens „
pipeline
”, die aus „svd
” und „kmeans
” besteht.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____