LoslegenKostenlos starten

Wikipedia clustern, Teil II

Jetzt ist es Zeit, deine Pipeline aus der vorherigen Übung einzusetzen! Du erhältst ein Array articles mit tf-idf-Wortfrequenzen einiger populärer Wikipedia-Artikel und eine Liste titles mit deren Titeln. Verwende deine Pipeline, um die Wikipedia-Artikel zu clustern.

Eine Lösung der vorherigen Übung wurde bereits für dich geladen, sodass eine Pipeline pipeline, die TruncatedSVD mit KMeans verknüpft, verfügbar ist.

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Importiere pandas als pd.
  • Passe die Pipeline an das Wortfrequenz-Array articles an.
  • Sage die Cluster-Labels voraus.
  • Richte die Cluster-Labels an der Liste titles der Artikeltitel aus, indem du ein DataFrame df mit labels und titles als Spalten erstellst. Das wurde bereits für dich erledigt.
  • Verwende die Methode .sort_values() von df, um das DataFrame nach der Spalte 'label' zu sortieren, und gib das Ergebnis aus.
  • Drücke auf Antwort senden und nimm dir einen Moment, um dein großartiges Clustering der Wikipedia-Seiten anzuschauen!

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Code bearbeiten und ausführen