Macierz częstości słów tf-idf

W tym ćwiczeniu utworzysz macierz częstości słów tf-idf dla przykładowego zbioru dokumentów. Skorzystaj z TfidfVectorizer z biblioteki sklearn. Przekształca on listę dokumentów w macierz częstości słów, którą zwraca w formacie csr_matrix. Podobnie jak inne obiekty sklearn, posiada metody fit() i transform().

Do dyspozycji masz listę documents zawierającą przykładowe dokumenty na temat zwierząt domowych.

Zaimportuj TfidfVectorizer z sklearn.feature_extraction.text.
Utwórz instancję TfidfVectorizer o nazwie tfidf.
Zastosuj metodę .fit_transform() obiektu tfidf do documents i przypisz wynik do csr_mat. Jest to macierz częstości słów w formacie csr_matrix.
Sprawdź csr_mat, wywołując na nim metodę .toarray() i wyświetlając wynik. Ten krok jest już wykonany.
Kolumny macierzy odpowiadają poszczególnym słowom. Pobierz listę słów, wywołując metodę .get_feature_names_out() obiektu tfidf, i przypisz wynik do words.

ćwiczenie

Macierz częstości słów tf-idf

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie