1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶNLPの特徴量エンジニアリング

Connected

Exercise

ブログ記事のクリーニング

この演習では、ブログ記事の抜粋が与えられています。これを機械が扱いやすい形式にクリーニングしてください。小文字化、レマタイゼーション、ストップワード・句読点・英字以外の文字の除去を行います。

抜粋は文字列 blog として用意され、コンソールに出力されています。ストップワードのリストは stopwords として利用できます。

Instructions

100 XP
  • リスト内包表記を使って、doc をループし、各トークンの lemma_ を抽出してください。
  • stopwords と isalpha() を使って、ストップワードと英字以外のトークンを取り除いてください。