1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie nienadzorowane w Pythonie

Connected

ćwiczenie

Macierz częstości słów tf-idf

W tym ćwiczeniu utworzysz macierz częstości słów tf-idf dla przykładowego zbioru dokumentów. Skorzystaj z TfidfVectorizer z biblioteki sklearn. Przekształca on listę dokumentów w macierz częstości słów, którą zwraca w formacie csr_matrix. Podobnie jak inne obiekty sklearn, posiada metody fit() i transform().

Do dyspozycji masz listę documents zawierającą przykładowe dokumenty na temat zwierząt domowych.

Instrukcje

100 XP
  • Zaimportuj TfidfVectorizer z sklearn.feature_extraction.text.
  • Utwórz instancję TfidfVectorizer o nazwie tfidf.
  • Zastosuj metodę .fit_transform() obiektu tfidf do documents i przypisz wynik do csr_mat. Jest to macierz częstości słów w formacie csr_matrix.
  • Sprawdź csr_mat, wywołując na nim metodę .toarray() i wyświetlając wynik. Ten krok jest już wykonany.
  • Kolumny macierzy odpowiadają poszczególnym słowom. Pobierz listę słów, wywołując metodę .get_feature_names_out() obiektu tfidf, i przypisz wynik do words.