1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 예측 분석 입문

Connected

연습 문제

상관된 변수

모델에 처음 추가된 10개 변수는 다음과 같습니다:

['max_gift', 'number_gift', 'time_since_last_gift', 'mean_gift', 'income_high', 'age', 'country_USA', 'gender_F', 'income_low', 'country_UK']

보시다시피 min_gift는 추가되지 않았습니다. 그렇다면 이 변수가 나쁜 변수일까요? 단일 변수로 모델에 사용한 뒤 AUC를 계산해 성능을 확인해 볼 수 있어요. min_gift의 AUC는 income_high의 AUC와 비교해서 어떨까요? 이를 위해 auc() 함수를 사용할 수 있습니다:

auc(variables, target, basetable)

이미 모델에 들어간 변수와 높은 상관관계를 가지는 좋은 변수가 추가되지 않는 경우가 발생할 수 있어요. 이를 확인하려면 두 변수 간 상관계를 계산해 보세요:

import numpy
numpy.corrcoef(basetable["variable_1"],basetable["variable_2"])[0,1]

지침

100 XP
  • 변수 min_gift만 사용한 모델의 AUC를 계산하세요.
  • 변수 income_high만 사용한 모델의 AUC를 계산하세요.
  • 변수 min_gift와 mean_gift 간의 상관관계를 계산하세요.