Clusterování Wikipedie – část II

Teď je čas pustit pipeline z předchozího cvičení do práce! Máš k dispozici pole articles s tf-idf frekvencemi slov z populárních článků na Wikipedii a seznam titles s jejich názvy. Pomocí pipeline tato články seskup do clusterů.

Řešení předchozího cvičení už je načtené, takže Pipeline pipeline řetězící TruncatedSVD s KMeans je připravená k použití.

Naimportuj pandas jako pd.
Přizpůsob pipeline poli word-frequency articles.
Předpověz štítky clusterů.
Spáruj štítky clusterů se seznamem názvů článků titles tak, že vytvoříš DataFrame df se sloupci labels a titles. Tento krok už je hotový.
Pomocí metody .sort_values() na df seřaď DataFrame podle sloupce 'label' a výsledek vypiš.
Klikni na Submit a chvíli si prohlédni, jak skvěle ses vypořádal/a s clusterováním stránek Wikipedie!

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení