1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu thiếu trong R

Connected

Bài tập

Sử dụng simputation để nội suy dữ liệu

Có rất nhiều gói nội suy (imputation) trong R. Ở đây, chúng ta sẽ tập trung vào gói simputation, gói này cung cấp một giao diện đơn giản nhưng mạnh mẽ để thực hiện nội suy.

Xây dựng một mô hình nội suy tốt là cực kỳ quan trọng, nhưng cũng là chủ đề phức tạp — việc xây dựng một mô hình nội suy tốt đòi hỏi công sức tương đương với việc xây dựng một mô hình thống kê tốt. Trong khóa học này, chúng ta sẽ tập trung vào cách đánh giá các nội suy.

Đầu tiên, chúng ta sẽ xem cách dùng hàm impute_lm(), hàm này nội suy giá trị theo một mô hình tuyến tính được chỉ định.

Trong bài tập này, chúng ta sẽ áp dụng các kỹ thuật đánh giá trước đó lên dữ liệu với impute_lm(), rồi tiếp tục phát triển phương pháp nội suy này ở các bài học sau.

Hướng dẫn

100 XP

Sử dụng bộ dữ liệu oceanbuoys:

  • Nội suy humidity dựa trên wind_ew và wind_ns, và theo dõi các giá trị khuyết bằng add_label_shadow().
  • Vẽ các giá trị đã nội suy cho air_temp_c và humidity, lần lượt đặt chúng trên trục x và trục y, và tô màu theo any_missing().