テキストデータのクリーニング

すでにストップワードと句読点を定義しましたので、これらを使ってデータフレーム df 内の Enron のメールをさらにクリーニングしていきます。ストップワードと句読点を含むリストはそれぞれ stop と exclude に用意されています。完全にクリーンなデータにするには、単語の「レンマ化（lemmatization）」や動詞のステミングなど、いくつかの追加ステップが必要です。今回のメールデータでは動詞はすでにステミングされており、この演習ではレンマ化もあらかじめ実行済みです。