1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

単語のカウント(I)

全体的な情報を整理できたら、各テキストの実際の内容に基づいた特徴量作成に進みます。これには、前のレッスンで行ったカテゴリ変数の扱いと似たアプローチが使えます。

  • データセット内のユニークな単語ごとに列を作成します。
  • 各レコードについて、その単語が出現した回数を数え、その数を対応する列に入力します。

この「カウント」列を使って Machine Learning モデルを学習させることができます。

指示

100 XP
  • sklearn.feature_extraction.text から CountVectorizer をインポートします。
  • CountVectorizer をインスタンス化し、cv に代入します。
  • ベクトライザを text_clean 列に対して学習させます。
  • ベクトライザで生成された特徴量名を出力します。