1. Learn
  2. /
  3. Courses
  4. /
  5. Nền tảng Suy luận trong R

Connected

Exercise

Cỡ mẫu trong phân phối hoán vị

Chúng tôi đã tạo cho bạn hai bộ dữ liệu mới có chênh lệch tỷ lệ gần như giống hệt dữ liệu phân biệt đối xử ban đầu. Tuy nhiên, một bộ dữ liệu (disc_small) chỉ bằng một phần ba kích thước bộ dữ liệu gốc và bộ còn lại (disc_big) lớn gấp 10 lần bộ dữ liệu gốc.

Ngoài ra, cùng đoạn mã hoán vị đã dùng trước đó cũng được chạy trên các bộ dữ liệu nhỏ và lớn để tạo ra phân phối hoán vị của chênh lệch tỷ lệ thăng chức cỡ nhỏ và cỡ lớn (tương ứng là disc_small_perm và disc_big_perm).

Trong bài này, bạn sẽ dùng hai phân phối mới để hình dung mức độ thay đổi của chênh lệch khi cỡ mẫu rất khác nhau. Đặc biệt, hãy chú ý phạm vi biến thiên trên trục x của mỗi biểu đồ.

Instructions 1/3

undefined XP
  • 1
    • Lập bảng cho bộ dữ liệu nhỏ, disc_small. Cụ thể, gọi count() và truyền các cột sex và promote để tạo bảng chéo.
    • Thực hiện tương tự với bộ dữ liệu lớn, disc_big.
  • 2
    • Dùng bộ dữ liệu hoán vị nhỏ, disc_perm_small, vẽ stat.
    • Thêm lớp histogram với binwidth là 0.01.
    • Thêm một đường thẳng đứng bằng geom_vline(), với điểm cắt trục x là diff_orig_small.
  • 3

    Vẽ lại cùng biểu đồ, lần này dùng bộ dữ liệu lớn, disc_perm_big và điểm cắt trục x là diff_orig_big.