Zkoumání textových vektorů, část 1

Pojďme rozšířit metodu průzkumu textových vektorů, kterou jsme si právě ukázali, tentokrát s využitím tf/idf vektorů sloupce title z datasetu volunteer. V této první části se zaměříme na rozšíření funkce z prezentace – funkce bude vracet seznam čísel. V dalším cvičení napíšeme další funkci, která shromáždí nejdůležitější slova ze všech dokumentů, extrahuje je a použije je k filtrování vektoru text_tfidf.

Přidej parametry original_vocab pro tfidf_vec.vocabulary_ a top_n.
Zavolej pd.Series() na zazipovaný slovník – díky tomu bude snazší s ním pracovat.
Pomocí funkce .sort_values() seřaď sérii a ořízni index na top_n slov.
Zavolej funkci s argumenty original_vocab=tfidf_vec.vocabulary_, vector_index=8 pro výběr 9. řádku a top_n=3 pro získání 3 nejvýše ohodnocených slov.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení