1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

演習

Bag-of-Words で Counter を作る

この演習では、Wikipedia の記事(article として読み込み済み)を使って、コースで最初の bag-of-words カウンタを作成します。記事全文は見ずに bag-of-words を作り、トピックを推測してみましょう。最後にタイトルを確認したければ、article_title に用意してあります。なお、この記事テキストは Wikipedia の生データから最小限の前処理しか行っていません。

word_tokenize はインポート済みです。

指示

100 XP
  • collections から Counter をインポートします。
  • word_tokenize() を使って記事をトークンに分割します。
  • 反復変数を t とするリスト内包表記で、すべてのトークンを小文字に変換します。.lower() メソッドはテキストを小文字に変換します。
  • Counter() に lower_tokens を渡して、bow_simple という名前の bag-of-words カウンタを作成します。
  • bow_simple の .most_common() メソッドを使って、最も頻出するトークンを 10 個表示します。