1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý dữ liệu khuyết bằng Imputation trong R

Connected

Bài tập

Kiểm định t cho MAR: chuẩn bị dữ liệu

Bạn đã làm rất tốt khi phân loại các cơ chế dữ liệu thiếu ở bài trước! Trong ba cơ chế, MAR có lẽ là quan trọng nhất cần phát hiện, vì nhiều phương pháp bù khuyết (imputation) giả định dữ liệu là MAR. Vì vậy, bài này sẽ tập trung vào kiểm định MAR.

Bạn sẽ làm việc với dữ liệu quen thuộc biopics. Mục tiêu là kiểm tra xem số lượng giá trị thiếu trong earnings có khác nhau theo giới tính của nhân vật hay không. Ở bài này, bạn chỉ cần chuẩn bị dữ liệu cho kiểm định t. Trước hết, hãy tạo một biến giả (dummy) cho biết earnings bị thiếu hay không. Sau đó, bạn sẽ tách biến này theo giới tính bằng cách lọc dữ liệu để giữ một giới tính, rồi dùng pull() để lấy biến giả. Khi lọc, bạn có thể in head() của biopics ra console để quan sát biến giới tính.

Hướng dẫn

100 XP
  • Thêm vào biopics một biến mới tên missing_earnings có giá trị TRUE nếu earnings bị thiếu và FALSE nếu không.
  • Tạo một vector các giá trị missing_earnings cho nam và gán vào missing_earnings_males.
  • Tạo một vector các giá trị missing_earnings cho nữ và gán vào missing_earnings_females.