1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu thiếu trong R

Connected

Bài tập

Có bao nhiêu giá trị bị thiếu?

Một trong những việc đầu tiên bạn nên kiểm tra với một bộ dữ liệu mới là liệu có giá trị bị thiếu không và có bao nhiêu.

Bạn có thể dùng are_na() để đếm số lượng giá trị bị thiếu, nhưng cách hiệu quả nhất để đếm thiếu là dùng hàm n_miss(). Hàm này sẽ cho bạn biết tổng số giá trị bị thiếu trong dữ liệu.

Sau đó bạn có thể tìm phần trăm giá trị bị thiếu trong dữ liệu với hàm pct_miss. Hàm này sẽ cho bạn biết tỷ lệ phần trăm giá trị bị thiếu trong dữ liệu.

Bạn cũng có thể tìm phần bù của các giá trị này — có bao nhiêu giá trị đầy đủ — bằng cách dùng n_complete và pct_complete.

Hướng dẫn

100 XP

Sử dụng dataframe ví dụ về chiều cao và cân nặng dat_hw:

  • Dùng n_miss() trên dataframe dat_hw để đếm tổng số giá trị bị thiếu trong dataframe.
  • Dùng n_miss() trên biến dat_hw$weight để đếm tổng số giá trị bị thiếu của biến này.
  • Tương tự, dùng prop_miss(), n_complete(), và prop_complete() để lấy tỷ lệ giá trị bị thiếu, cũng như số lượng và tỷ lệ giá trị đầy đủ cho cả dataframe và các biến.