1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Preprocessing pro Machine Learning v Pythonu

Connected

cvičení

Zkoumání textových vektorů, část 2

S využitím funkce return_weights(), kterou jsi napsal(a) v předchozím cvičení, teď z každého dokumentu v textovém vektoru extrahuješ nejdůležitější slova, vrátíš seznam jejich indexů a pomocí tohoto seznamu textový vektor zreduguješ jen na tato slova.

Pokyny

100 XP
  • Zavolej return_weights(), aby funkce vrátila slova s nejvyšší váhou pro daný dokument.
  • Zavolej set() na vrácený filter_list, čímž odstraníš duplicitní čísla.
  • Zavolej words_to_filter s těmito parametry: vocab pro parametr vocab, tfidf_vec.vocabulary_ pro parametr original_vocab, text_tfidf pro parametr vector a 3 pro parametr top_n, čímž z každého dokumentu vezmeš 3 slova s nejvyšší váhou.
  • Nakonec převeď sadu filtered_words na seznam a použij ho jako filtr pro textový vektor.