1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 신용 위험 모델링

Connected

연습 문제

로지스틱 회귀 모형에서 여러 변수 사용하기

하나의 모수(계수)에 대한 해석은 모형에 여러 변수를 포함하더라도 그대로 유지돼요. 여러 변수를 포함한 상태에서 특정 변수의 변화에 따른 해석을 요구할 때는, 다른 변수들은 일정하게 유지된다고 가정합니다. 이를 라틴어로는 ceteris paribus라고 하며, 문자 그대로는 "다른 모든 것을 같은 상태로 둔다"는 뜻이에요.

여러 변수를 포함한 로지스틱 회귀 모형을 만들려면 + 기호로 변수를 추가하면 됩니다. 공식은 다음과 같은 형태가 돼요:

y ~ x1 + ... + xk

모형을 평가할 때는 유의해야 할 사항이 몇 가지 있습니다. 이미 모수 값들을 살펴보았지만, 그것만 중요한 것은 아니에요. 특정 모수 추정치의 통계적 유의성도 중요합니다. 모수의 유의성은 흔히 p-value로 불리지만, 모형 출력에서는 Pr(>|t|)로 표시되는 것을 보게 될 거예요. glm에서는 약한 유의성은 "."로, 매우 강한 유의성은 "***"로 표기됩니다. 어떤 모수가 유의하지 않다는 것은 그 모수가 0과 통계적으로 유의미하게 다르다고 보장할 수 없다는 뜻이에요. 통계적 유의성은 중요합니다. 일반적으로는 유의한 모수에 대해서만 연체(default)에 대한 영향 해석이 타당해요.

지침

100 XP
  • glm() 함수를 사용해 training_set으로 로지스틱 회귀 모형을 만드세요. 변수 age, ir_cat, grade, loan_amnt, annual_inc를 포함하세요. 이 모형의 이름은 log_model_multi로 하세요.
  • 모형과 summary()를 함께 사용해 유의수준(유의성 표기)을 확인하세요. 유의수준의 의미는 다음 연습 문제에서 더 자세히 살펴볼 거예요!