1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Học có giám sát trong R: Phân loại

Connected

Bài tập

Xử lý dữ liệu thiếu

Một số nhà tài trợ tiềm năng bị thiếu dữ liệu age. Đáng tiếc là R sẽ loại trừ mọi bản ghi có giá trị NA khi xây dựng mô hình hồi quy.

Một cách khắc phục là thay thế, hay còn gọi là nội suy (impute), các giá trị bị thiếu bằng một giá trị ước tính. Sau đó, bạn cũng có thể tạo một biến chỉ báo dữ liệu thiếu để mô hình hóa khả năng các bản ghi có dữ liệu thiếu có thể khác theo một cách nào đó so với các bản ghi không thiếu.

Data frame donors đã được nạp trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Dùng summary() trên donors$age để tìm độ tuổi trung bình của các đối tượng không thiếu dữ liệu.
  • Dùng ifelse() với phép kiểm tra is.na(donors$age) để nội suy giá trị trung bình (được làm tròn đến 2 chữ số thập phân) cho các trường hợp thiếu age. Nhớ bỏ qua các NA.
  • Tạo một biến giả nhị phân tên missing_age để chỉ báo sự hiện diện của dữ liệu thiếu bằng một lời gọi ifelse() khác, dùng lại cùng phép kiểm tra.