1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Suy luận cho dữ liệu phân loại trong R

Connected

Bài tập

Khi giả thuyết không đúng: ra quyết định

Trong bài tập trước, chênh lệch tỷ lệ quan sát được nằm khá thoải mái ở giữa phân phối theo giả thuyết không. Trong bài này, bạn sẽ đưa ra quyết định chính thức về việc có nên bác bỏ giả thuyết không hay không; nhưng thay vì dùng p-value, bạn sẽ dùng khái niệm miền bác bỏ.

Miền bác bỏ là khoảng giá trị của thống kê sẽ dẫn bạn đến việc bác bỏ giả thuyết không. Với kiểm định hai phía, có hai miền bác bỏ. Bạn biết rằng miền phía trên sẽ chứa 2,5% lớn nhất của các thống kê theo giả thuyết không (khi alpha = .05), vì vậy bạn có thể lấy giá trị ngưỡng bằng cách tìm quantile() ở mức .975. Tương tự, miền phía dưới chứa 2,5% nhỏ nhất của các thống kê theo giả thuyết không, cũng có thể tìm bằng quantile().

Dưới đây là ví dụ nhanh về cách hàm quantile() hoạt động với dữ liệu đơn giản x.

x <- c(0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20)
quantile(x, probs = .5)
quantile(x, probs = .8)

Khi đã có miền bác bỏ được xác định bởi các ngưỡng trên và dưới, bạn có thể đưa ra quyết định về giả thuyết không bằng cách kiểm tra xem thống kê quan sát được của bạn có nằm giữa các ngưỡng đó (khi đó bạn không bác bỏ) hay nằm ngoài chúng (khi đó bạn bác bỏ).

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo một đối tượng tên alpha có giá trị 0.05.
  • Tìm ngưỡng trên bằng cách bắt đầu từ data frame null đã được giữ lại từ bài trước và tóm tắt cột stat bằng cách tìm quantile() ở mức alpha / 2. Lưu giá trị này vào lower. Tiếp theo, tìm quantile() ở mức 1 - alpha / 2 và lưu vào upper.
  • Kiểm tra xem giá trị quan sát được d_hat có between() hai ngưỡng lower và upper hay không để xác định bạn có nên không bác bỏ giả thuyết không.