Pole četností slov pomocí tf-idf

V tomto cvičení vytvoříš pole četností slov metodou tf-idf pro ukázkovou kolekci dokumentů. Použij k tomu TfidfVectorizer ze sklearn. Ten transformuje seznam dokumentů na pole četností slov, které vrátí jako csr_matrix. Stejně jako ostatní objekty sklearn má metody fit() a transform().

Máš k dispozici seznam documents s ukázkovými dokumenty o domácích zvířatech.

Importuj TfidfVectorizer z sklearn.feature_extraction.text.
Vytvoř instanci TfidfVectorizer a pojmenuj ji tfidf.
Aplikuj metodu .fit_transform() objektu tfidf na documents a výsledek ulož do csr_mat. Jde o pole četností slov ve formátu csr_matrix.
Prozkoumej csr_mat zavoláním metody .toarray() a výsledek vypiš. Tento krok je už za tebe hotový.
Sloupce pole odpovídají jednotlivým slovům. Získej seznam slov zavoláním metody .get_feature_names_out() objektu tfidf a výsledek ulož do words.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení