로그 정규화

표준화는 모든 특성이 비교 가능하도록 만드는 데 중요해요. 로그 정규화는 일반적인 표준화 방법 중 하나예요. 이번에는 선택한 특성들의 분산을 확인하고, 전체 특성 중 중앙값 분산을 계산해 보겠습니다. 사용할 특성은 숫자형 컬럼이며, 실제로는 범주형인 click 컬럼, banner_pos, device_type, 그리고 이전 레슨에서 만든 search_engine_type, product_type, advertiser_type 컬럼은 제외해요. 그런 다음 중앙값 분산보다 분산이 큰 컬럼에 로그 정규화를 적용하고 결과를 확인해 보겠습니다.

작업 공간에는 pandas 모듈이 pd로, 샘플 DataFrame은 df로 로드되어 있어요.