対数正規化

標準化は、すべての特徴量を比較可能にするために重要です。対数正規化は一般的な標準化手法のひとつです。ここでは、選択した特徴量の分散を確認し、全体の中央値の分散を計算します。対象とする特徴量は数値列ですが、実際にはカテゴリ列であるため、click 列、banner_pos、device_type、そして前のレッスンで作成した search_engine_type、product_type、advertiser_type の列は除外します。次に、中央値より分散が大きい列に対して対数正規化を適用し、結果を確認します。

pandas モジュールはワークスペースで pd として利用可能で、サンプルの DataFrame は df として読み込まれています。