1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Luyện tập câu hỏi phỏng vấn Thống kê với R

Connected

Bài tập

Mã hóa dữ liệu

Mã hóa dữ liệu phân loại (categorical) giúp chúng hữu ích cho các thuật toán Machine Learning. R mã hóa factor ở mức nội bộ, nhưng bạn vẫn cần mã hóa khi phát triển mô hình của riêng mình.

Trong bài tập này, bạn sẽ xây dựng một mô hình tuyến tính bằng lm() rồi tự phát triển mô hình của mình từng bước.

Với one hot encoding, bạn tạo một cột riêng cho mỗi mức (level).

Lưu ý rằng một trong các cột có thể suy ra từ các cột còn lại (ví dụ, toàn 0 ở các cột "B" và "C" ngụ ý 1 ở cột "A"). Vì vậy, bạn có thể bỏ cột đầu tiên khi hồi quy tuyến tính. Chúng ta sẽ xem chi tiết hơn về mô hình tuyến tính ở chương tiếp theo.

Để thực hiện one hot encoding, bạn có thể dùng dummyVars() từ gói caret.

Cách dùng: trước hết tạo bộ mã hóa, sau đó biến đổi dữ liệu:

encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)

Các bản ghi đầy đủ (complete cases) của bộ dữ liệu khảo sát trong gói MASS có sẵn dưới tên survey. Gói caret đã được nạp sẵn.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Khớp một mô hình tuyến tính dự đoán Pulse theo Exer dùng dữ liệu survey; hệ số của mô hình là gì?