Clustering di Wikipedia, parte II
È il momento di mettere al lavoro la pipeline dell'esercizio precedente! Ti vengono forniti un array articles con le frequenze tf-idf delle parole di alcuni popolari articoli di Wikipedia e una lista titles con i loro titoli. Usa la tua pipeline per raggruppare (clusterizzare) gli articoli di Wikipedia.
Una soluzione all'esercizio precedente è già stata caricata per te, quindi hai a disposizione una Pipeline pipeline che collega TruncatedSVD con KMeans.
Questo esercizio fa parte del corso
Apprendimento non supervisionato in Python
Istruzioni dell'esercizio
- Importa
pandascomepd. - Adatta la pipeline alla matrice di frequenze delle parole
articles. - Predici le etichette dei cluster.
- Allinea le etichette dei cluster con la lista
titlesdei titoli degli articoli creando un DataFramedfconlabelsetitlescome colonne. Questo è già stato fatto per te. - Usa il metodo
.sort_values()didfper ordinare il DataFrame in base alla colonna'label'e stampa il risultato. - Premi Invia risposta e prenditi un momento per esplorare il tuo fantastico clustering delle pagine di Wikipedia!
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)