1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 Machine Learning을 활용한 CTR 예측

Connected

演習

로그 정규화

표준화는 모든 특성이 비교 가능하도록 만드는 데 중요해요. 로그 정규화는 일반적인 표준화 방법 중 하나예요. 이번에는 선택한 특성들의 분산을 확인하고, 전체 특성 중 중앙값 분산을 계산해 보겠습니다. 사용할 특성은 숫자형 컬럼이며, 실제로는 범주형인 click 컬럼, banner_pos, device_type, 그리고 이전 레슨에서 만든 search_engine_type, product_type, advertiser_type 컬럼은 제외해요. 그런 다음 중앙값 분산보다 분산이 큰 컬럼에 로그 정규화를 적용하고 결과를 확인해 보겠습니다.

작업 공간에는 pandas 모듈이 pd로, 샘플 DataFrame은 df로 로드되어 있어요.

指示1 / 2

undefined XP
    1
    2
  • 숫자형 컬럼을 선택하고, filter_cols에 대해 .isin()을 사용해 특정 컬럼을 제외하세요.
  • 각 컬럼의 분산을 .var()로 출력하세요(괄호를 잊지 마세요!).
  • .median()으로 분산의 중앙값을 계산해 출력하세요.