1. Learn
  2. /
  3. Cursuri
  4. /
  5. Preprocesare pentru Machine Learning în Python

Connected

exercițiu

Explorarea vectorilor de text, partea 2

Folosind funcția return_weights() pe care ai scris-o în exercițiul anterior, vei extrage acum cuvintele cu cel mai mare pondere din fiecare document al vectorului de text, vei returna o listă cu indicii acestor cuvinte și vei utiliza acea listă pentru a filtra vectorul de text la cuvintele respective.

Instrucțiuni

100 XP
  • Apelează return_weights() pentru a returna cuvintele cu cea mai mare pondere din documentul respectiv.
  • Apelează set() pe filter_list-ul returnat pentru a elimina numerele duplicate.
  • Apelează words_to_filter, transmițând următorii parametri: vocab pentru parametrul vocab, tfidf_vec.vocabulary_ pentru parametrul original_vocab, text_tfidf pentru parametrul vector și 3 pentru a prelua primele top_n 3 cuvinte cu cea mai mare pondere din fiecare document.
  • În final, transformă setul filtered_words într-o listă pentru a o folosi ca filtru pentru vectorul de text.