1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Pythonで学ぶ不正検知

Connected

Bài tập

ストップワードの除去

次の演習では、トピックモデルでデータを使えるようにするため、Enron のメールをクレンジングします。テキストのクレンジングは難しい場合がありますが、うまく進めるための手順を学びます。メールを含むデータフレーム df が用意されています。最初のステップとして、次の演習でテキストから削除するストップワードと句読記号(記号類)のリストを定義します。さっそくやってみましょう。

Hướng dẫn

100 XP
  • ntlk から stopwords をインポートします。
  • 変数 stop にストップワードとして使う 'english' の単語を定義します。
  • string パッケージから句読記号の集合を取得し、exclude に割り当てます。