1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

未知データの変換

テキストからベクトルを作成する際、Machine Learningモデルを学習させる前に行ったあらゆる前処理は、新しい未知(テスト)データにも同様に適用する必要があります。これを実現するには前章と同じ方針、すなわち「ベクトライザは学習データに対してのみfitし、テストデータにはそれを適用する」ことを守ってください。

この演習では speech_df DataFrame を次の2つに分割しています。

  • train_speech_df: 最初の45件のスピーチからなる学習用データセット。
  • test_speech_df: 残りのスピーチからなるテスト用データセット。

指示

100 XP
  • TfidfVectorizer をインスタンス化します。
  • ベクトライザをfitし、text_clean 列に適用します。
  • 同じベクトライザをテストデータの text_clean 列にも適用します。
  • テストセットから得られた新しい特徴量でDataFrameを作成します。