Wikipedia clustern, Teil II
Jetzt ist es Zeit, deine Pipeline aus der vorherigen Übung einzusetzen! Du erhältst ein Array articles mit tf-idf-Wortfrequenzen einiger populärer Wikipedia-Artikel und eine Liste titles mit deren Titeln. Verwende deine Pipeline, um die Wikipedia-Artikel zu clustern.
Eine Lösung der vorherigen Übung wurde bereits für dich geladen, sodass eine Pipeline pipeline, die TruncatedSVD mit KMeans verknüpft, verfügbar ist.
Diese Übung ist Teil des Kurses
<Kurs>Unsupervised Learning in Python</Kurs>Übungsanweisungen
- Importiere
pandasalspd. - Passe die Pipeline an das Wortfrequenz-Array
articlesan. - Sage die Cluster-Labels voraus.
- Richte die Cluster-Labels an der Liste
titlesder Artikeltitel aus, indem du ein DataFramedfmitlabelsundtitlesals Spalten erstellst. Das wurde bereits für dich erledigt. - Verwende die Methode
.sort_values()vondf, um das DataFrame nach der Spalte'label'zu sortieren, und gib das Ergebnis aus. - Drücke auf Antwort senden und nimm dir einen Moment, um dein großartiges Clustering der Wikipedia-Seiten anzuschauen!
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)