1. 학습
  2. /
  3. 강의
  4. /
  5. R에서 대치(Imputation)로 결측치 다루기

Connected

연습 문제

MAR 가설의 t-검정: 데이터 준비

이전 연습 문제에서 결측 데이터 메커니즘을 잘 분류하셨어요! 세 가지 중에서도 MAR은 특히 중요해요. 많은 대치(imputation) 방법이 데이터가 MAR이라고 가정하기 때문이죠. 그래서 이번 연습 문제는 MAR을 검정하는 데 초점을 맞춰요.

익숙한 biopics 데이터를 사용하겠습니다. 목표는 earnings에서의 결측값 개수가 인물의 성별에 따라 다른지 테스트하는 것입니다. 이 연습에서는 t-검정을 위한 데이터 준비만 진행해요. 먼저, earnings가 결측인지 나타내는 더미 변수를 만들어요. 그런 다음 성별별로 나누기 위해 데이터를 한 성별만 남기도록 필터링하고, 그 뒤에 방금 만든 더미 변수를 pull 합니다. 필터링을 할 때는 콘솔에서 biopics의 head()를 출력해 보고 성별 변수를 확인해 보시면 도움이 될 거예요.

지침

100 XP
  • earnings가 결측이면 TRUE, 아니면 FALSE가 되도록 missing_earnings라는 변수를 biopics에 추가하세요.
  • 남성에 대한 missing_earnings 값 벡터를 만들어 missing_earnings_males에 할당하세요.
  • 여성에 대한 missing_earnings 값 벡터를 만들어 missing_earnings_females에 할당하세요.