1. 学ぶ
  2. /
  3. コース
  4. /
  5. Kerasで学ぶ言語モデリングのためのRecurrent Neural Networks (RNNs)

Connected

演習

Word2Vec

この演習では、Keras を使って Word2Vec モデルを作成します。

モデルの事前学習に使うコーパスは、TV 番組 The Big Bang Theory の全エピソードの台本を文ごとに分割したものです。変数 bigbang に用意されています。

コーパス内のテキストはすべて小文字化され、単語はトークン化されています。結果は変数 tokenized_corpus に保存されています。

Word2Vec モデルは、コンテキストのウィンドウサイズを 10 語(中心語の前後に 5 語ずつ)とし、出現回数が 3 未満の単語を除去し、skip-gram 手法を用いて 50 次元で事前学習されています。モデルはファイル bigbang_word2vec.model に保存されています。

Word2Vec クラスは、gensim.models.word2vec から環境に読み込まれています。

指示

100 XP
  • 事前学習済みの Word2Vec モデルを読み込みます。
  • 単語 "bazinga", "penny", "universe", "spock", "brain" をこの順序のまま list にして、変数 words_of_interest に保存します。
  • 各注目単語について反復処理を行い、属性 wv にある .most_similar() メソッドを使って、上位5件の類似単語を辞書として top5_similar_words に追加します。
  • 各注目単語ごとに見つかった上位5件の単語を出力してください。