1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Bù trung bình cho nhiệt độ

Bù thiếu bằng giá trị trung bình có thể tiềm ẩn rủi ro. Nếu biến bạn đang bù trung bình có tương quan với các biến khác, mối tương quan này có thể bị phá vỡ bởi các giá trị được bù. Bạn đã thấy điều đó lộ diện trong bài trước khi phân tích biến air_temp.

Để kiểm chứng những lo ngại này, trong bài này bạn sẽ thực hiện bù trung bình cho air_temp, đồng thời tạo một biến chỉ báo nhị phân cho biết các vị trí đã được bù. Điều này sẽ rất hữu ích ở bài tiếp theo khi bạn đánh giá hiệu quả bù thiếu. Hãy cùng điền các giá trị bị thiếu!

Hướng dẫn

100 XP
  • Trong pipeline đang chỉnh sửa tao, tạo một biến mới tên air_temp_imp có giá trị TRUE nếu air_temp bị thiếu và FALSE nếu không.
  • Ở bước sau trong cùng pipeline, ghi đè air_temp bằng chính giá trị trung bình của nó mỗi khi bị thiếu và giữ nguyên nếu không thiếu, rồi gán kết quả cho tao_imp.