Wikipedia clusteren, deel II
Tijd om je pipeline uit de vorige oefening in te zetten! Je krijgt een array articles met tf-idf-woordfrequenties van een aantal populaire Wikipedia-artikelen, en een lijst titles met hun titels. Gebruik je pipeline om de Wikipedia-artikelen te clusteren.
Een oplossing van de vorige oefening is voor je ingeladen, dus er is een Pipeline pipeline beschikbaar die TruncatedSVD met KMeans koppelt.
Deze oefening maakt deel uit van de cursus
Unsupervised Learning in Python
Oefeninstructies
- Importeer
pandasalspd. - Fit de pipeline op de woordfrequentie-array
articles. - Voorspel de clusterlabels.
- Lijn de clusterlabels uit met de lijst
titlesvan artikeltitels door een DataFramedfte maken metlabelsentitlesals kolommen. Dit is al voor je gedaan. - Gebruik de methode
.sort_values()vandfom de DataFrame te sorteren op de kolom'label', en print het resultaat. - Klik op Antwoord verzenden en neem even de tijd om je geweldige clustering van Wikipedia-pagina's te bekijken!
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)