1. 学ぶ
  2. /
  3. コース
  4. /
  5. PythonでMachine Learningを使ってCTRを予測する

Connected

演習

対数正規化

標準化は、すべての特徴量を比較可能にするために重要です。対数正規化は一般的な標準化手法のひとつです。ここでは、選択した特徴量の分散を確認し、全体の中央値の分散を計算します。対象とする特徴量は数値列ですが、実際にはカテゴリ列であるため、click 列、banner_pos、device_type、そして前のレッスンで作成した search_engine_type、product_type、advertiser_type の列は除外します。次に、中央値より分散が大きい列に対して対数正規化を適用し、結果を確認します。

pandas モジュールはワークスペースで pd として利用可能で、サンプルの DataFrame は df として読み込まれています。

指示1 / 2

undefined XP
    1
    2
  • 数値列を選択し、filter_cols に対する .isin() を使って特定の列を除外します。
  • .var() を使って各列の分散を出力します(かっこを忘れないでください!)。
  • .median() を使って分散の中央値を計算し、出力します。