LoslegenKostenlos loslegen

Clustering Wikipedia Teil II

Jetzt ist es Zeit, deine Pipeline aus der letzten Übung zum Laufen zu bringen! Du bekommst ein Array articles mit tf-idf-Wortfrequenzen einiger beliebter Wikipedia-Artikel und eine Liste titles mit deren Titeln. Nutze deine Pipeline, um die Wikipedia-Artikel zu gruppieren.

Eine Lösung für die vorherige Übung wurde schon für dich vorbereitet, sodass dir eine Pipeline- pipeline -Verknüpfung aus TruncatedSVD und KMeans zur Verfügung steht.

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere pandas als pd.
  • Passe die Pipeline an das Wortfrequenz-Array an articles.
  • Sag mal, wie die Cluster-Labels aussehen könnten.
  • Richte die Cluster-Labels an der Liste „ titles “ mit den Artikeltiteln aus, indem du einen DataFrame „ df “ mit den Spalten „ labels “ und „ titles “ erstellst. Das haben wir für dich getan.
  • Mit der Methode „ .sort_values() “ von „ df “ sortierst du den DataFrame nach der Spalte „ 'label' “ und gibst das Ergebnis aus.
  • Klick auf „Senden“ und schau dir deine coole Gruppierung von Wikipedia-Seiten an!

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Code bearbeiten und ausführen