1. 学ぶ
  2. /
  3. コース
  4. /
  5. PythonでMachine Learningを使ってCTRを予測する

Connected

演習

新しい特徴量を作成する

特徴量エンジニアリングには、新しい特徴量の作成も含まれます。モデルはこうした特徴量に依存して予測精度を高めるため、新しい特徴量の作成は重要です。この演習では、データ上は整数として現れますが、実際にはカテゴリ値を表す3つの列の性質を確認します。これら3つの列は search_engine_type、product_type、advertiser_type です。これら3列に加えて、device_id と site_id に対してもカウント特徴量を作成します。カウント特徴量は、それぞれの列ごとにクリック数を表し、後で予測に利用します。

pandas モジュールはワークスペースで pd として利用可能で、サンプルの DataFrame は df として読み込まれています。

指示

100 XP
  • feature_list に含まれる各特徴量について、値の総数とユニークな値の数を出力してください。
  • .transform() を使って、new_feature_list の各特徴量ごとにクリック数を数え、新しい特徴量を作成してください。