Clusterizarea Wikipedia – Partea I

Ai văzut în video că TruncatedSVD poate aplica PCA pe matrice rare în format csr_matrix, cum ar fi matricele de frecvență a cuvintelor. Combină cunoștințele despre TruncatedSVD și k-means pentru a clusteriza câteva pagini populare de pe Wikipedia. În acest exercițiu, construiești pipeline-ul. În exercițiul următor, îl vei aplica pe matricea de frecvență a cuvintelor din câteva articole Wikipedia.

Creează un obiect Pipeline format dintr-un TruncatedSVD urmat de KMeans. (De această dată, am precalculat matricea de frecvență a cuvintelor pentru tine, deci nu mai este nevoie de un TfidfVectorizer).

Setul de date Wikipedia cu care vei lucra a fost obținut de aici.

Importă:
- TruncatedSVD din sklearn.decomposition.
- KMeans din sklearn.cluster.
- make_pipeline din sklearn.pipeline.
Creează o instanță TruncatedSVD numită svd cu n_components=50.
Creează o instanță KMeans numită kmeans cu n_clusters=6.
Creează un pipeline numit pipeline format din svd și kmeans.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu