Erste SchritteKostenlos loslegen

Clustering Wikipedia Teil II

Jetzt ist es an der Zeit, deine Pipeline aus der vorherigen Übung in die Tat umzusetzen! Du erhältst ein Array articles mit den tf-idf-Worthäufigkeiten einiger beliebter Wikipedia-Artikel und eine Liste titles mit deren Titeln. Nutze deine Pipeline, um die Wikipedia-Artikel zu clustern.

Eine Lösung für die vorherige Übung wurde für dich vorgeladen, so dass eine Pipeline pipeline mit der Verkettung von TruncatedSVD mit KMeans verfügbar ist.

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere pandas als pd.
  • Passe die Pipeline an das Wortfrequenzfeld articles an.
  • Sage die Cluster-Labels voraus.
  • Richte die Cluster-Labels an der Liste titles der Artikeltitel aus, indem du einen DataFrame df mit labels und titles als Spalten erstellst. Das haben wir für dich getan.
  • Verwende die Methode .sort_values() von df, um den DataFrame nach der Spalte 'label' zu sortieren, und drucke das Ergebnis aus.
  • Drücke auf "Abschicken" und nimm dir einen Moment Zeit, um dein erstaunliches Clustering von Wikipedia-Seiten zu untersuchen!

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Bearbeiten und Ausführen von Code