1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Matice kosinové podobnosti korpusu

V tomto cvičení máš k dispozici corpus – seznam obsahující pět vět. corpus je vypsán v konzoli. Tvým úkolem je vypočítat matici kosinové podobnosti, která obsahuje párové skóre kosinové podobnosti pro každou dvojici vět (vektorizovaných pomocí tf-idf).

Pamatuj, že hodnota na i-tém řádku a j-tém sloupci matice podobnosti představuje skóre podobnosti i-tého a j-tého vektoru.

Pokyny

100 XP
  • Inicializuj instanci TfidfVectorizer a pojmenuj ji tfidf_vectorizer.
  • Pomocí fit_transform() vytvoř tf-idf vektory pro corpus a pojmenuj je tfidf_matrix.
  • Použij cosine_similarity() a předej jí tfidf_matrix pro výpočet matice kosinové podobnosti cosine_sim.