1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mô hình hóa với tidymodels trong R

Connected

Bài tập

Quy trình feature engineering

Để đưa feature engineering vào quy trình mô hình hóa, bạn cần tiền xử lý các tập dữ liệu huấn luyện và kiểm tra trước bước fitting mô hình. Với những kỹ năng bạn đã học trong chương này, bạn sẽ có thể dùng toàn bộ biến dự đoán hiện có trong dữ liệu viễn thông để huấn luyện mô hình logistic regression.

Trong bài tập này, bạn sẽ tạo một pipeline feature engineering trên dữ liệu viễn thông và dùng nó để biến đổi tập huấn luyện và tập kiểm tra.

Các tập dữ liệu telecom_training và telecom_test cùng với đặc tả mô hình logistic regression của bạn, logistic_model, đã được nạp vào phiên làm việc.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Tạo một đối tượng recipe, telecom_recipe, đặt biến đích là canceled_service và tất cả cột còn lại trong telecom_training là biến dự đoán.
  • Dùng các hàm chọn lựa (selector) để loại bỏ các biến dự đoán tương quan cao với ngưỡng 0.8, áp dụng log cho tất cả biến dự đoán dạng số, chuẩn hóa toàn bộ biến dự đoán dạng số, và tạo biến giả (dummy) cho tất cả biến dự đoán định danh (nominal).