1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ不正検知

Connected

Exercise

テキストデータのクリーニング

すでにストップワードと句読点を定義しましたので、これらを使ってデータフレーム df 内の Enron のメールをさらにクリーニングしていきます。ストップワードと句読点を含むリストはそれぞれ stop と exclude に用意されています。完全にクリーンなデータにするには、単語の「レンマ化(lemmatization)」や動詞のステミングなど、いくつかの追加ステップが必要です。今回のメールデータでは動詞はすでにステミングされており、この演習ではレンマ化もあらかじめ実行済みです。

Instrukcje 1 / 2

undefined XP
    1
    2
  • 先ほど定義した変数 stop と exclude を使って関数を完成させます。rstrip で単語の末尾の空白を取り除き、ストップワードと句読点を除外します。最後に単語をレンマ化し、その結果を normalized に代入します。