1. 학습
  2. /
  3. 강의
  4. /
  5. R에서 대치(Imputation)로 결측치 다루기

Connected

연습 문제

누락된 데이터가 있는 상태에서의 선형 회귀

누락된 데이터는 매우 흔한 문제이며, 이를 올바르게 처리하는 것은 매우 중요해요. 누락값을 무시하거나 잘못 채우면 모델이 예기치 않게 동작하고, 예측과 추론에 편향이 생길 수 있어요.

이번 장에서는 biopics 데이터셋을 사용해 보겠습니다. 이 데이터에는 여러 전기 영화의 수익, 인물 특성, 기타 변수에 대한 정보가 들어 있어요. 다만 일부 관측값은 누락되어 있습니다. 원본 데이터는 R 패키지 fivethirtyeight에 포함되어 있지만, 이 강의에서는 약간 전처리된 버전을 사용해요.

이번 연습 문제에서는 데이터셋을 살펴보고, 영화의 수익을 설명하기 위한 선형 회귀 모델을 적합해 보겠습니다. 시작해 볼까요?

지침 1/4

undefined XP
    1
    2
    3
    4
  • biopics 데이터의 처음 10개 관측치를 출력하고 변수에 익숙해지세요.