Explorarea vectorilor de text, partea 1

Hai să aprofundăm metoda de explorare a vectorilor de text pe care tocmai am învățat-o, folosind vectorii tf/idf din coloana title a setului de date volunteer. În această primă parte, vom extinde funcția prezentată în slide-uri și o vom face să returneze o listă de numere. În exercițiul următor, vom scrie o altă funcție care colectează cele mai frecvente cuvinte din toate documentele, le extrage și folosește acea listă pentru a filtra vectorul text_tfidf.

Adaugă parametrii original_vocab, pentru tfidf_vec.vocabulary_, și top_n.
Apelează pd.Series() pe dicționarul comprimat cu zip. Acest lucru va facilita operațiile ulterioare.
Folosește funcția .sort_values() pentru a sorta seria și extrage indexul până la top_n cuvinte.
Apelează funcția, setând original_vocab=tfidf_vec.vocabulary_, vector_index=8 pentru a prelua rândul 9, și top_n=3 pentru a obține primele 3 cuvinte cu cel mai mare weight.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu