1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Unsupervised Learning in Python

Connected

cvičení

Clusterování Wikipedie – část II

Teď je čas pustit pipeline z předchozího cvičení do práce! Máš k dispozici pole articles s tf-idf frekvencemi slov z populárních článků na Wikipedii a seznam titles s jejich názvy. Pomocí pipeline tato články seskup do clusterů.

Řešení předchozího cvičení už je načtené, takže Pipeline pipeline řetězící TruncatedSVD s KMeans je připravená k použití.

Pokyny

100 XP
  • Naimportuj pandas jako pd.
  • Přizpůsob pipeline poli word-frequency articles.
  • Předpověz štítky clusterů.
  • Spáruj štítky clusterů se seznamem názvů článků titles tak, že vytvoříš DataFrame df se sloupci labels a titles. Tento krok už je hotový.
  • Pomocí metody .sort_values() na df seřaď DataFrame podle sloupce 'label' a výsledek vypiš.
  • Klikni na Submit a chvíli si prohlédni, jak skvěle ses vypořádal/a s clusterováním stránek Wikipedie!