1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Dự đoán CTR với Machine Learning trong Python

Connected

Bài tập

Chuẩn hóa log

Chuẩn hóa rất quan trọng để đảm bảo các đặc trưng có thể so sánh được. Chuẩn hóa log là một phương pháp chuẩn hóa phổ biến. Bạn sẽ kiểm tra phương sai của một số đặc trưng đã chọn và tính phương sai trung vị tổng thể giữa các đặc trưng. Các đặc trưng sẽ là những cột số, ngoại trừ cột click, banner_pos, device_type, và các cột search_engine_type, product_type, advertiser_type từ bài trước vì thực chất chúng là các cột phân loại. Sau đó bạn sẽ áp dụng chuẩn hóa log cho những cột có phương sai cao hơn phương sai trung vị và kiểm tra kết quả.

Mô-đun pandas đã được nạp dưới tên pd trong không gian làm việc của bạn và DataFrame mẫu đã được nạp là df.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Chọn các cột số và loại trừ các cột cụ thể bằng cách dùng .isin() trên filter_cols.
  • In ra phương sai của từng cột bằng .var() (đừng quên dấu ngoặc!).
  • Tính và in phương sai trung vị bằng .median().