1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Preprocessing pro Machine Learning v Pythonu

Connected

cvičení

Zkoumání textových vektorů, část 1

Pojďme rozšířit metodu průzkumu textových vektorů, kterou jsme si právě ukázali, tentokrát s využitím tf/idf vektorů sloupce title z datasetu volunteer. V této první části se zaměříme na rozšíření funkce z prezentace – funkce bude vracet seznam čísel. V dalším cvičení napíšeme další funkci, která shromáždí nejdůležitější slova ze všech dokumentů, extrahuje je a použije je k filtrování vektoru text_tfidf.

Pokyny

100 XP
  • Přidej parametry original_vocab pro tfidf_vec.vocabulary_ a top_n.
  • Zavolej pd.Series() na zazipovaný slovník – díky tomu bude snazší s ním pracovat.
  • Pomocí funkce .sort_values() seřaď sérii a ořízni index na top_n slov.
  • Zavolej funkci s argumenty original_vocab=tfidf_vec.vocabulary_, vector_index=8 pro výběr 9. řádku a top_n=3 pro získání 3 nejvýše ohodnocených slov.