1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Hồi quy tuyến tính với dữ liệu không đầy đủ

Thiếu dữ liệu là vấn đề rất thường gặp và xử lý đúng cách là vô cùng quan trọng. Bỏ qua các điểm dữ liệu bị thiếu hoặc điền sai có thể khiến mô hình hoạt động không như mong đợi và làm cho dự đoán cũng như suy luận bị chệch.

Trong chương này, bạn sẽ làm việc với bộ dữ liệu biopics. Bộ này chứa thông tin về nhiều phim tiểu sử, bao gồm doanh thu, đặc điểm nhân vật và một số biến khác. Tuy nhiên, một số điểm dữ liệu bị thiếu. Dữ liệu gốc nằm trong gói R fivethirtyeight, nhưng trong khóa học này, bạn sẽ dùng phiên bản đã được tiền xử lý nhẹ.

Trong bài tập này, bạn sẽ làm quen với bộ dữ liệu và xây dựng một mô hình hồi quy tuyến tính để giải thích doanh thu của phim. Bắt đầu nhé!

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • In ra 10 quan sát đầu tiên của dữ liệu biopics và làm quen với các biến.