1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

演習

gensim でコーパスを作成してクエリする

前の動画で学んだ方法を使って、最初の gensim の辞書とコーパスを作成しましょう。

これらのデータ構造を使って、ドキュメント集合における単語の傾向や興味深い話題の手がかりを調べます。開始用に、Wikipedia から取得した少しノイズのある記事をいくつか読み込んであります。これらはすべて小文字化、トークン化、ストップワードと句読点の除去を行って前処理済みで、各ドキュメントのトークンのリスト articles に格納されています。ここから軽い前処理を行い、gensim の辞書とコーパスを生成してください。

指示

100 XP
  • gensim.corpora.dictionary から Dictionary をインポートします。
  • articles に含まれるトークンで gensim の Dictionary を初期化します。
  • dictionary から "computer" の id を取得します。これには、テキストから id を返す .token2id を使い、その後に id からトークンを返す .get() をチェーンします。.get() の引数に "computer" を渡してください。
  • リスト内包表記を使い、articles を反復して dictionary から gensim の MmCorpus を作成します。
    • 出力式では、dictionary の .doc2bow() メソッドを使い、引数に article を渡します。
  • 5 番目のドキュメントから、最初の 10 個の単語 id とその出現頻度を表示します。これはすでに用意してあるので、"回答を送信" をクリックして結果を確認してください。