1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Gói gọn bước điền khuyết & mô hình hóa trong một hàm

Bất cứ khi nào bạn phân tích hay mô hình hóa trên dữ liệu đã được điền khuyết, bạn cần tính đến mức độ bất định do quá trình điền khuyết. Chạy một mô hình trên bộ dữ liệu chỉ được điền khuyết một lần sẽ bỏ qua thực tế rằng việc điền khuyết chỉ ước lượng các giá trị thiếu với sự bất định. Sai số chuẩn từ những mô hình như vậy thường quá nhỏ. Giải pháp là điền khuyết nhiều lần, và một cách để thực hiện là dùng bootstrapping.

Trong các bài tập sắp tới, bạn sẽ làm việc với dữ liệu quen thuộc biopics. Mục tiêu là dùng điền khuyết nhiều lần bằng bootstrapping và hồi quy tuyến tính để xem, dựa trên dữ liệu hiện có, liệu phim tiểu sử về nữ có kiếm ít hơn so với về nam hay không.

Hãy bắt đầu bằng cách viết một hàm tạo mẫu bootstrap, điền khuyết mẫu đó và khớp một mô hình hồi quy tuyến tính.

Hướng dẫn

100 XP
  • Cắt lát data để lấy lại mẫu các hàng theo indices và gán kết quả cho data_boot.
  • Điền khuyết mẫu bootstrap data_boot bằng kNN với 5 láng giềng và gán kết quả cho data_imp.
  • Khớp một mô hình hồi quy tuyến tính cho data_imp giải thích earnings theo sub_sex, sub_type và year.