1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶSentiment Analysis

Connected

演習

Twitter 航空会社感情データでの TfIdf

ここでは、TfIdf 手法を使って特徴量を作成します。引き続き tweets データセットを扱います。

この演習では、これまでに学んだ内容を活用して、ストップワードの除去、トークンパターンの使用、n-gram の指定を行います。

最終的な出力は、TfidfVectorizer() で作成された列を持つ DataFrame になります。このような DataFrame は、そのまま教師あり学習モデルに渡すことができます。次の章では、まさにそれに取り組みます。

指示

100 XP
  • TfidfVectorizer を構築するために必要なパッケージと ENGLISH_STOP_WORDS をインポートします。
  • tweets データセットの text 列から TfIdf ベクトライザを作成します。n-gram は uni-gram と bi-gram を指定し、与えられたトークンパターンで英数字のみを含むトークンを対象とし、ストップワードには ENGLISH_STOP_WORDS を指定します。
  • フィットしたのと同じ列を指定してベクトライザを変換(transform)します。
  • DataFrame() 関数で列名を指定します。