Aan de slagGa gratis aan de slag

Wikipedia clusteren, deel II

Tijd om je pipeline uit de vorige oefening in te zetten! Je krijgt een array articles met tf-idf-woordfrequenties van een aantal populaire Wikipedia-artikelen, en een lijst titles met hun titels. Gebruik je pipeline om de Wikipedia-artikelen te clusteren.

Een oplossing van de vorige oefening is voor je ingeladen, dus er is een Pipeline pipeline beschikbaar die TruncatedSVD met KMeans koppelt.

Deze oefening maakt deel uit van de cursus

Unsupervised Learning in Python

Cursus bekijken

Oefeninstructies

  • Importeer pandas als pd.
  • Fit de pipeline op de woordfrequentie-array articles.
  • Voorspel de clusterlabels.
  • Lijn de clusterlabels uit met de lijst titles van artikeltitels door een DataFrame df te maken met labels en titles als kolommen. Dit is al voor je gedaan.
  • Gebruik de methode .sort_values() van df om de DataFrame te sorteren op de kolom 'label', en print het resultaat.
  • Klik op Antwoord verzenden en neem even de tijd om je geweldige clustering van Wikipedia-pagina's te bekijken!

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Code bewerken en uitvoeren