1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu có khả năng mở rộng trong R

Connected

Bài tập

Tìm kiếm tính thiếu dữ liệu có thể dự đoán được

Nếu dữ liệu bị thiếu hoàn toàn ngẫu nhiên, bạn sẽ không thể dự đoán một biến bị thiếu dựa trên phần dữ liệu còn lại. Do đó, nếu có thể dự đoán được việc thiếu dữ liệu thì dữ liệu không thiếu hoàn toàn ngẫu nhiên. Vậy hãy dùng hàm glm() để khớp một mô hình hồi quy logistic, tìm dấu hiệu thiếu dữ liệu dựa trên khả năng chi trả (affordability) trong biến mort mà bạn đã tạo trước đó. Nếu bạn không tìm thấy cấu trúc nào trong dữ liệu thiếu — tức là các biến hệ số dốc không có ý nghĩa thống kê — điều đó không có nghĩa là bạn đã chứng minh dữ liệu thiếu ngẫu nhiên, nhưng giả thuyết đó là hợp lý.

Hướng dẫn

100 XP
  • Tạo một biến cho biết "borrower_race" bị thiếu (bằng 9) trong dữ liệu thế chấp.
  • Tạo một biến factor từ cột "affordability".
  • Hồi quy affordability_factor theo borrower_race_ind và gọi summary() trên mô hình.