1. Learn
  2. /
  3. Cursuri
  4. /
  5. Învățare nesupervizată în Python

Connected

exercițiu

Clusterizarea Wikipedia – Partea I

Ai văzut în video că TruncatedSVD poate aplica PCA pe matrice rare în format csr_matrix, cum ar fi matricele de frecvență a cuvintelor. Combină cunoștințele despre TruncatedSVD și k-means pentru a clusteriza câteva pagini populare de pe Wikipedia. În acest exercițiu, construiești pipeline-ul. În exercițiul următor, îl vei aplica pe matricea de frecvență a cuvintelor din câteva articole Wikipedia.

Creează un obiect Pipeline format dintr-un TruncatedSVD urmat de KMeans. (De această dată, am precalculat matricea de frecvență a cuvintelor pentru tine, deci nu mai este nevoie de un TfidfVectorizer).

Setul de date Wikipedia cu care vei lucra a fost obținut de aici.

Instrucțiuni

100 XP
  • Importă:
    • TruncatedSVD din sklearn.decomposition.
    • KMeans din sklearn.cluster.
    • make_pipeline din sklearn.pipeline.
  • Creează o instanță TruncatedSVD numită svd cu n_components=50.
  • Creează o instanță KMeans numită kmeans cu n_clusters=6.
  • Creează un pipeline numit pipeline format din svd și kmeans.