IniziaInizia gratis

Clustering di Wikipedia, parte II

È il momento di mettere al lavoro la pipeline dell'esercizio precedente! Ti vengono forniti un array articles con le frequenze tf-idf delle parole di alcuni popolari articoli di Wikipedia e una lista titles con i loro titoli. Usa la tua pipeline per raggruppare (clusterizzare) gli articoli di Wikipedia.

Una soluzione all'esercizio precedente è già stata caricata per te, quindi hai a disposizione una Pipeline pipeline che collega TruncatedSVD con KMeans.

Questo esercizio fa parte del corso

Apprendimento non supervisionato in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa pandas come pd.
  • Adatta la pipeline alla matrice di frequenze delle parole articles.
  • Predici le etichette dei cluster.
  • Allinea le etichette dei cluster con la lista titles dei titoli degli articoli creando un DataFrame df con labels e titles come colonne. Questo è già stato fatto per te.
  • Usa il metodo .sort_values() di df per ordinare il DataFrame in base alla colonna 'label' e stampa il risultato.
  • Premi Invia risposta e prenditi un momento per esplorare il tuo fantastico clustering delle pagine di Wikipedia!

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Modifica ed esegui il codice