1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie nienadzorowane w Pythonie

Connected

ćwiczenie

Klasteryzacja Wikipedii – część I

W filmie pokazano, że TruncatedSVD potrafi wykonywać PCA na rzadkich macierzach w formacie csr_matrix, takich jak macierze częstości słów. Połącz wiedzę o TruncatedSVD i k-means, aby sklasteryzować wybrane popularne artykuły z Wikipedii. W tym ćwiczeniu zbudujesz potok. W następnym ćwiczeniu zastosujesz go do macierzy częstości słów artykułów z Wikipedii.

Utwórz obiekt Pipeline składający się z TruncatedSVD oraz KMeans. (Tym razem macierz częstości słów jest już wstępnie obliczona, więc TfidfVectorizer nie jest potrzebny).

Zbiór danych z Wikipedii, z którym będziesz pracować, pochodzi z tej strony.

Instrukcje

100 XP
  • Zaimportuj:
    • TruncatedSVD z sklearn.decomposition.
    • KMeans z sklearn.cluster.
    • make_pipeline z sklearn.pipeline.
  • Utwórz instancję TruncatedSVD o nazwie svd z parametrem n_components=50.
  • Utwórz instancję KMeans o nazwie kmeans z parametrem n_clusters=6.
  • Utwórz potok o nazwie pipeline składający się z svd i kmeans.