1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ自然言語処理(NLP)

Connected

演習

ストップワードの除去

あなたは、ユーザーからのフィードバックを「製品の問題」「サービスの問題」「提案」などのカテゴリに分類するプロジェクトに取り組んでいます。多くの場合、ストップワードはカテゴリの違いを見分けるうえで意味を持たないことが多いです。そこで、これらのストップワードを取り除き、後で Machine Learning が正しいトピックにフィードバックを分類しやすくなるよう、重要な単語に焦点を当てましょう。

nltk.tokenize の word_tokenize と、nltk.corpus の stopwords.words はすでにインポートされています。さらに、NLTK リソースの punkt_tab と stopwords もダウンロード済みです。

指示

100 XP
  • 提供されたフィードバックを単語にトークン化します。
  • 英語のストップワード一覧を取得します。
  • 英語のストップワードを除去し、結果を filtered_tokens に保存します。