1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Natural Language Processing 入門

Connected

演習

テキスト前処理の実践

ここまでに学んだ手法を使って、NLP の精度を上げるためのテキストクレンジングに取り組みましょう。ストップワードと非アルファベット文字の除去、レmmatize(原形化)、そしてクレンジング後のテキストで新たに bag-of-words を作成します。

前の演習で作成したトークン lower_tokens が与えられています。Counter クラスもすでにインポート済みです。

指示

100 XP
  • nltk.stem から WordNetLemmatizer クラスをインポートします。
  • アルファベットの文字だけを含むリスト alpha_only を作成します。判定には .isalpha() メソッドを使えます。
  • alpha_only のうち、english_stops に含まれて「いない」単語からなる no_stops というリストを作成します。
  • WordNetLemmatizer オブジェクト wordnet_lemmatizer を初期化し、no_stops の各トークンに対して .lemmatize() メソッドを適用して、新しいリスト lemmatized を作成します。
  • レmmatize した単語で新たに Counter の bow を作成します。
  • 最後に、最も頻出するトークン上位10件を出力します。