Clustering di Wikipedia parte I
Nel video hai visto che TruncatedSVD può eseguire la PCA su array sparsi in formato csr_matrix, come gli array di frequenze delle parole. Combina ciò che sai su TruncatedSVD e k-means per raggruppare alcune pagine popolari di Wikipedia. In questo esercizio, costruisci la pipeline. Nel prossimo esercizio la applicherai all'array di frequenze delle parole di alcuni articoli di Wikipedia.
Crea un oggetto Pipeline composto da un TruncatedSVD seguito da KMeans. (Questa volta abbiamo già calcolato per te la matrice delle frequenze delle parole, quindi non c'è bisogno di un TfidfVectorizer).
Il dataset di Wikipedia con cui lavorerai è stato ottenuto da qui.
Questo esercizio fa parte del corso
Apprendimento non supervisionato in Python
Istruzioni dell'esercizio
- Importa:
TruncatedSVDdasklearn.decomposition.KMeansdasklearn.cluster.make_pipelinedasklearn.pipeline.
- Crea un'istanza di
TruncatedSVDchiamatasvdconn_components=50. - Crea un'istanza di
KMeanschiamatakmeansconn_clusters=6. - Crea una pipeline chiamata
pipelinecomposta dasvdekmeans.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____