Wikipedia clustern, Teil II
Jetzt ist es Zeit, deine Pipeline aus der vorherigen Übung einzusetzen! Du erhältst ein Array articles mit tf-idf-Wortfrequenzen einiger populärer Wikipedia-Artikel und eine Liste titles mit deren Titeln. Verwende deine Pipeline, um die Wikipedia-Artikel zu clustern.
Eine Lösung der vorherigen Übung wurde bereits für dich geladen, sodass eine Pipeline pipeline, die TruncatedSVD mit KMeans verknüpft, verfügbar ist.
Diese Übung ist Teil des Kurses
Unsupervised Learning in Python
Anleitung zur Übung
- Importiere
pandasalspd. - Passe die Pipeline an das Wortfrequenz-Array
articlesan. - Sage die Cluster-Labels voraus.
- Richte die Cluster-Labels an der Liste
titlesder Artikeltitel aus, indem du ein DataFramedfmitlabelsundtitlesals Spalten erstellst. Das wurde bereits für dich erledigt. - Verwende die Methode
.sort_values()vondf, um das DataFrame nach der Spalte'label'zu sortieren, und gib das Ergebnis aus. - Drücke auf Antwort senden und nimm dir einen Moment, um dein großartiges Clustering der Wikipedia-Seiten anzuschauen!
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)