LoslegenKostenlos loslegen

Wikipedia clustern, Teil II

Jetzt ist es Zeit, deine Pipeline aus der vorherigen Übung einzusetzen! Du erhältst ein Array articles mit tf-idf-Wortfrequenzen einiger populärer Wikipedia-Artikel und eine Liste titles mit deren Titeln. Verwende deine Pipeline, um die Wikipedia-Artikel zu clustern.

Eine Lösung der vorherigen Übung wurde bereits für dich geladen, sodass eine Pipeline pipeline, die TruncatedSVD mit KMeans verknüpft, verfügbar ist.

Diese Übung ist Teil des Kurses

Unsupervised Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere pandas als pd.
  • Passe die Pipeline an das Wortfrequenz-Array articles an.
  • Sage die Cluster-Labels voraus.
  • Richte die Cluster-Labels an der Liste titles der Artikeltitel aus, indem du ein DataFrame df mit labels und titles als Spalten erstellst. Das wurde bereits für dich erledigt.
  • Verwende die Methode .sort_values() von df, um das DataFrame nach der Spalte 'label' zu sortieren, und gib das Ergebnis aus.
  • Drücke auf Antwort senden und nimm dir einen Moment, um dein großartiges Clustering der Wikipedia-Seiten anzuschauen!

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Code bearbeiten und ausführen