テキスト前処理の実践

ここまでに学んだ手法を使って、NLP の精度を上げるためのテキストクレンジングに取り組みましょう。ストップワードと非アルファベット文字の除去、レmmatize（原形化）、そしてクレンジング後のテキストで新たに bag-of-words を作成します。

前の演習で作成したトークン lower_tokens が与えられています。Counter クラスもすでにインポート済みです。

nltk.stem から WordNetLemmatizer クラスをインポートします。
アルファベットの文字だけを含むリスト alpha_only を作成します。判定には .isalpha() メソッドを使えます。
alpha_only のうち、english_stops に含まれて「いない」単語からなる no_stops というリストを作成します。
WordNetLemmatizer オブジェクト wordnet_lemmatizer を初期化し、no_stops の各トークンに対して .lemmatize() メソッドを適用して、新しいリスト lemmatized を作成します。
レmmatize した単語で新たに Counter の bow を作成します。
最後に、最も頻出するトークン上位10件を出力します。