1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶ自然言語処理(NLP)

Connected

演習

小文字化(Lowercasing)

旅行サイトのユーザーレビューを分析しています。レビューには "TRAVEL" と "travel" のように大文字・小文字が混在することがよくあります。感情分析やトピック抽出の前処理として、まずすべての単語を小文字に変換し、その後トークン化して、ストップワードと句読点を取り除きます。

word_tokenize() 関数と stop_words リストは用意されています。NLTK のリソースはすでにダウンロード済みです。

指示

100 XP
  • 提供された review を小文字に変換します。
  • lower_text を単語にトークン化します。
  • リスト内包表記を使って、stop_words と string.punctuation のリストを用い、ストップワードと句読点を取り除きます。