NMF se učí témata dokumentů

Ve videu jsi se dozvěděl/a, že při aplikaci NMF na dokumenty odpovídají komponenty tématům těchto dokumentů a NMF příznaky rekonstruují dokumenty z daných témat. Ověř si to sám/sama na NMF modelu, který jsi sestavil/a dříve pomocí článků z Wikipedie. V předchozí části sis všiml/a, že 3. hodnota příznaku NMF byla vysoká u článků o hercích Anne Hathawayové a Denzelu Washingtonovi. V tomto cvičení identifikuješ téma odpovídající NMF komponenty.

NMF model, který jsi sestavil/a dříve, je dostupný jako model, a words je seznam slov, která označují sloupce pole frekvencí slov.

Až budeš hotov/a, zamysli se nad tím, jaké téma mají články o Anne Hathawayové a Denzelu Washingtonovi společné!

Importuj pandas jako pd.
Vytvoř DataFrame components_df z model.components_ a nastav columns=words, aby byly sloupce pojmenované podle slov.
Vypiš components_df.shape a zkontroluj rozměry DataFramu.
Pomocí přístupového objektu .iloc[] na DataFramu components_df vyber řádek 3. Výsledek přiřaď do proměnné component.
Zavolej metodu .nlargest() na component a výsledek vypiš. Zobrazí se pět slov s nejvyššími hodnotami pro danou komponentu.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení