1. Learn
  2. /
  3. Courses
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Exercise

Mã hóa mục tiêu theo giá trị trung bình (mean target encoding)

Trước hết, bạn sẽ tạo một hàm để hiện thực mean target encoding. Hãy nhớ bạn cần triển khai hai bước sau:

  1. Tính trung bình trên dữ liệu train, rồi áp dụng cho dữ liệu test
  2. Chia train thành K folds. Tính giá trị trung bình out-of-fold cho từng fold, rồi áp dụng cho chính fold đó

Mỗi bước sẽ được triển khai trong một hàm riêng: lần lượt là test_mean_target_encoding() và train_mean_target_encoding().

Hàm cuối cùng mean_target_encoding() nhận các đối số: DataFrame train và test, tên cột phân loại cần mã hóa, tên cột mục tiêu và tham số làm mượt alpha. Hàm trả về hai giá trị: một đặc trưng mới cho DataFrame train và một cho DataFrame test, tương ứng.

Instructions 1/3

undefined XP
    1
    2
    3
  • Bạn cần thêm làm mượt để tránh overfitting. Vì vậy, hãy thêm tham số \(\alpha\) vào mẫu số trong phép tính train_statistics.
  • Bạn cần xử lý các hạng mục (category) mới trong dữ liệu test. Vì thế, hãy truyền global mean làm đối số cho phương thức fillna().