1. Learn
  2. /
  3. Cursuri
  4. /
  5. Învățare nesupervizată în Python

Connected

exercițiu

Un array de frecvențe tf-idf

În acest exercițiu, vei crea un array de frecvențe tf-idf pentru o colecție simplă de documente. Vei folosi TfidfVectorizer din sklearn, care transformă o listă de documente într-un array de frecvențe ale cuvintelor, returnat sub forma unui csr_matrix. Are metode fit() și transform(), ca orice alt obiect sklearn.

Îți este furnizată lista documents, care conține câteva documente simple despre animale de companie.

Instrucțiuni

100 XP
  • Importă TfidfVectorizer din sklearn.feature_extraction.text.
  • Creează o instanță TfidfVectorizer numită tfidf.
  • Aplică metoda .fit_transform() a lui tfidf pe documents și atribuie rezultatul variabilei csr_mat. Aceasta este reprezentarea frecvențelor cuvintelor în format csr_matrix.
  • Inspectează csr_mat apelând metoda sa .toarray() și afișând rezultatul. Acest pas a fost deja realizat pentru tine.
  • Coloanele array-ului corespund cuvintelor. Obține lista de cuvinte apelând metoda .get_feature_names_out() a lui tfidf și atribuie rezultatul variabilei words.