Klasteryzacja Wikipedii – część I

W filmie pokazano, że TruncatedSVD potrafi wykonywać PCA na rzadkich macierzach w formacie csr_matrix, takich jak macierze częstości słów. Połącz wiedzę o TruncatedSVD i k-means, aby sklasteryzować wybrane popularne artykuły z Wikipedii. W tym ćwiczeniu zbudujesz potok. W następnym ćwiczeniu zastosujesz go do macierzy częstości słów artykułów z Wikipedii.

Utwórz obiekt Pipeline składający się z TruncatedSVD oraz KMeans. (Tym razem macierz częstości słów jest już wstępnie obliczona, więc TfidfVectorizer nie jest potrzebny).

Zbiór danych z Wikipedii, z którym będziesz pracować, pochodzi z tej strony.

Zaimportuj:
- TruncatedSVD z sklearn.decomposition.
- KMeans z sklearn.cluster.
- make_pipeline z sklearn.pipeline.
Utwórz instancję TruncatedSVD o nazwie svd z parametrem n_components=50.
Utwórz instancję KMeans o nazwie kmeans z parametrem n_clusters=6.
Utwórz potok o nazwie pipeline składający się z svd i kmeans.

ćwiczenie

Klasteryzacja Wikipedii – część I

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie