1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech dla NLP w Pythonie

Connected

ćwiczenie

Macierz podobieństwa kosinusowego korpusu

W tym ćwiczeniu masz do dyspozycji corpus – listę zawierającą pięć zdań, która jest wyświetlona w konsoli. Twoim zadaniem jest obliczenie macierzy podobieństwa kosinusowego, zawierającej parami wyznaczone wyniki podobieństwa kosinusowego dla każdej pary zdań (zwektoryzowanych metodą tf-idf).

Pamiętaj: wartość w i-tym wierszu i j-tej kolumnie macierzy podobieństwa oznacza wynik podobieństwa dla i-tego i j-tego wektora.

Instrukcje

100 XP
  • Utwórz instancję TfidfVectorizer i nadaj jej nazwę tfidf_vectorizer.
  • Używając metody fit_transform(), wygeneruj wektory tf-idf dla corpus. Nazwij wynik tfidf_matrix.
  • Użyj funkcji cosine_similarity() i przekaż tfidf_matrix jako argument, aby obliczyć macierz podobieństwa kosinusowego cosine_sim.