Clustering Wikipedia Teil II
Jetzt ist es Zeit, deine Pipeline aus der letzten Übung zum Laufen zu bringen! Du bekommst ein Array articles
mit tf-idf-Wortfrequenzen einiger beliebter Wikipedia-Artikel und eine Liste titles
mit deren Titeln. Nutze deine Pipeline, um die Wikipedia-Artikel zu gruppieren.
Eine Lösung für die vorherige Übung wurde schon für dich vorbereitet, sodass dir eine Pipeline- pipeline
-Verknüpfung aus TruncatedSVD und KMeans zur Verfügung steht.
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
pandas
alspd
. - Passe die Pipeline an das Wortfrequenz-Array an
articles
. - Sag mal, wie die Cluster-Labels aussehen könnten.
- Richte die Cluster-Labels an der Liste „
titles
“ mit den Artikeltiteln aus, indem du einen DataFrame „df
“ mit den Spalten „labels
“ und „titles
“ erstellst. Das haben wir für dich getan. - Mit der Methode „
.sort_values()
“ von „df
“ sortierst du den DataFrame nach der Spalte „'label'
“ und gibst das Ergebnis aus. - Klick auf „Senden“ und schau dir deine coole Gruppierung von Wikipedia-Seiten an!
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)