1. 학습
  2. /
  3. 강의
  4. /
  5. R에서의 추론 기초

Connected

연습 문제

무작위화 분포에서 표본 크기

원래 차별 데이터와 사실상 동일한 비율 차이를 갖는 두 개의 새 데이터셋을 준비했어요. 다만 한 데이터셋(disc_small)은 원본의 3분의 1 크기이고, 다른 데이터셋(disc_big)은 원본보다 10배 큽니다.

또한 이전에 사용한 동일한 순열 코드를 작은 데이터셋과 큰 데이터셋에도 적용하여, 승진 비율 차이의 순열 분포(disc_small_perm과 disc_big_perm)를 각각 얻어 두었습니다.

이번 연습에서는 이 두 분포를 사용해 표본 크기가 크게 다른 경우 차이가 어떻게 달라지는지 감을 잡아 보겠습니다. 특히 각 그림의 x축에서 변동 범위를 눈여겨봐 주세요.

지침 1/3

undefined XP
  • 1
    • 작은 데이터셋 disc_small을 표로 요약하세요. 즉, 교차표를 얻기 위해 count()를 호출하고 sex와 promote 열을 전달하세요.
    • 큰 데이터셋 disc_big에도 동일하게 수행하세요.
  • 2
    • 작은 순열 데이터셋 disc_perm_small을 사용해 stat를 그리세요.
    • binwidth가 0.01인 히스토그램 레이어를 추가하세요.
    • geom_vline()으로 세로선을 추가하고, x축 절편을 diff_orig_small로 지정하세요.
  • 3

    이번에는 큰 데이터셋 disc_perm_big을 사용하고 x축 절편을 diff_orig_big으로 설정해 동일한 그래프를 그리세요.