Clustering Wikipedia Teil II
Jetzt ist es an der Zeit, deine Pipeline aus der vorherigen Übung in die Tat umzusetzen! Du erhältst ein Array articles
mit den tf-idf-Worthäufigkeiten einiger beliebter Wikipedia-Artikel und eine Liste titles
mit deren Titeln. Nutze deine Pipeline, um die Wikipedia-Artikel zu clustern.
Eine Lösung für die vorherige Übung wurde für dich vorgeladen, so dass eine Pipeline pipeline
mit der Verkettung von TruncatedSVD mit KMeans verfügbar ist.
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
pandas
alspd
. - Passe die Pipeline an das Wortfrequenzfeld
articles
an. - Sage die Cluster-Labels voraus.
- Richte die Cluster-Labels an der Liste
titles
der Artikeltitel aus, indem du einen DataFramedf
mitlabels
undtitles
als Spalten erstellst. Das haben wir für dich getan. - Verwende die Methode
.sort_values()
vondf
, um den DataFrame nach der Spalte'label'
zu sortieren, und drucke das Ergebnis aus. - Drücke auf "Abschicken" und nimm dir einen Moment Zeit, um dein erstaunliches Clustering von Wikipedia-Seiten zu untersuchen!
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)