1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Unsupervised Learning in Python

Connected

cvičení

Shlukování Wikipedie – část I

Ve videu jsi viděl/a, že TruncatedSVD dokáže provádět PCA na řídkých polích ve formátu csr_matrix, jako jsou například matice četností slov. Zkombinuj znalosti TruncatedSVD a k-means a shlukni populární stránky z Wikipedie. V tomto cvičení sestavíš pipeline – v dalším ji pak aplikuješ na matici četností slov z vybraných článků Wikipedie.

Vytvoř objekt Pipeline složený z TruncatedSVD následovaného KMeans. (Matici četností slov jsme pro tebe předpočítali, takže TfidfVectorizer tentokrát nepotřebuješ.)

Dataset z Wikipedie, se kterým budeš pracovat, pochází odtud.

Pokyny

100 XP
  • Importuj:
    • TruncatedSVD z sklearn.decomposition.
    • KMeans z sklearn.cluster.
    • make_pipeline z sklearn.pipeline.
  • Vytvoř instanci TruncatedSVD s názvem svd a parametrem n_components=50.
  • Vytvoř instanci KMeans s názvem kmeans a parametrem n_clusters=6.
  • Vytvoř pipeline s názvem pipeline složenou z svd a kmeans.