Shlukování Wikipedie – část I

Ve videu jsi viděl/a, že TruncatedSVD dokáže provádět PCA na řídkých polích ve formátu csr_matrix, jako jsou například matice četností slov. Zkombinuj znalosti TruncatedSVD a k-means a shlukni populární stránky z Wikipedie. V tomto cvičení sestavíš pipeline – v dalším ji pak aplikuješ na matici četností slov z vybraných článků Wikipedie.

Vytvoř objekt Pipeline složený z TruncatedSVD následovaného KMeans. (Matici četností slov jsme pro tebe předpočítali, takže TfidfVectorizer tentokrát nepotřebuješ.)

Dataset z Wikipedie, se kterým budeš pracovat, pochází odtud.

Importuj:
- TruncatedSVD z sklearn.decomposition.
- KMeans z sklearn.cluster.
- make_pipeline z sklearn.pipeline.
Vytvoř instanci TruncatedSVD s názvem svd a parametrem n_components=50.
Vytvoř instanci KMeans s názvem kmeans a parametrem n_clusters=6.
Vytvoř pipeline s názvem pipeline složenou z svd a kmeans.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení