Wikipedia clustern, Teil I
Im Video hast du gesehen, dass TruncatedSVD PCA auf „sparse Arrays“ im csr_matrix-Format ausführen kann, zum Beispiel auf Worthäufigkeit-Arrays. Kombiniere dein Wissen über TruncatedSVD und k-means, um einige beliebte Wikipedia-Seiten zu clustern. In dieser Übung baust du die Pipeline dafür. In der nächsten Übung wendest du sie auf das Worthäufigkeit-Array einiger Wikipedia-Artikel an.
Erstelle ein Pipeline-Objekt, das aus einer TruncatedSVD gefolgt von KMeans besteht. (Diesmal haben wir die Worthäufigkeit-Matrix bereits für dich berechnet, daher brauchst du keinen TfidfVectorizer.)
Der Wikipedia-Datensatz, mit dem du arbeitest, stammt von hier.
Diese Übung ist Teil des Kurses
Unsupervised Learning in Python
Anleitung zur Übung
- Importiere:
TruncatedSVDaussklearn.decomposition.KMeansaussklearn.cluster.make_pipelineaussklearn.pipeline.
- Erstelle eine
TruncatedSVD-Instanz namenssvdmitn_components=50. - Erstelle eine
KMeans-Instanz namenskmeansmitn_clusters=6. - Erstelle eine Pipeline namens
pipeline, die aussvdundkmeansbesteht.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____