1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

演習

コーパスのコサイン類似度行列

この演習では、5つの文を含むリストである corpus が与えられています。corpus はコンソールに表示されています。tf-idf でベクトル化した各文の組み合わせについて、コサイン類似度スコアを格納するコサイン類似度行列を計算してください。

類似度行列の i 行目・j 列目の値は、i 番目と j 番目のベクトルの類似度スコアを表すことを思い出してください。

指示

100 XP
  • TfidfVectorizer のインスタンスを初期化し、tfidf_vectorizer という名前を付けます。
  • fit_transform() を使って corpus の tf-idf ベクトルを生成し、tfidf_matrix と名付けます。
  • cosine_similarity() に tfidf_matrix を渡して、コサイン類似度行列 cosine_sim を計算します。