1. Learn
  2. /
  3. Cursuri
  4. /
  5. Preprocesare pentru Machine Learning în Python

Connected

exercițiu

Explorarea vectorilor de text, partea 1

Hai să aprofundăm metoda de explorare a vectorilor de text pe care tocmai am învățat-o, folosind vectorii tf/idf din coloana title a setului de date volunteer. În această primă parte, vom extinde funcția prezentată în slide-uri și o vom face să returneze o listă de numere. În exercițiul următor, vom scrie o altă funcție care colectează cele mai frecvente cuvinte din toate documentele, le extrage și folosește acea listă pentru a filtra vectorul text_tfidf.

Instrucțiuni

100 XP
  • Adaugă parametrii original_vocab, pentru tfidf_vec.vocabulary_, și top_n.
  • Apelează pd.Series() pe dicționarul comprimat cu zip. Acest lucru va facilita operațiile ulterioare.
  • Folosește funcția .sort_values() pentru a sorta seria și extrage indexul până la top_n cuvinte.
  • Apelează funcția, setând original_vocab=tfidf_vec.vocabulary_, vector_index=8 pentru a prelua rândul 9, și top_n=3 pentru a obține primele 3 cuvinte cu cel mai mare weight.