1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 시계열 분석

Connected

연습 문제

회귀의 R-제곱 살펴보기

R-제곱은 데이터가 회귀선에 얼마나 잘 맞는지를 나타내므로, 단순 회귀에서 R-제곱은 두 변수의 상관관계와 연관이 있습니다. 특히 상관계수의 크기는 R-제곱의 제곱근이고, 상관계수의 부호는 회귀계수의 부호와 같습니다.

이번 연습에서는 R이나 SAS, MATLAB 같은 소프트웨어에 있는 많은 통계 모델링과 검정을 수행하는 통계 패키지 statsmodels를 사용해 보겠습니다.

두 개의 시리즈 x와 y의 상관관계를 계산한 다음, statsmodels.api 라이브러리의 OLS(y,x) 함수를 사용해 y를 x에 대해 회귀하세요(주의: 종속 변수, 즉 오른쪽 항의 변수 y가 첫 번째 인수입니다). 대부분의 선형 회귀에는 절편(회귀식 \(\small y_t=\alpha + \beta x_t + \epsilon_t\)에서의 \(\small \alpha\))인 상수가 포함됩니다. OLS() 함수로 상수를 포함하려면 회귀의 오른쪽 항에 1로 된 열을 추가해야 합니다.

statsmodels.api 모듈은 sm으로 임포트되어 있습니다.

지침

100 XP
  • .corr() 메서드를 사용해 x와 y의 상관계수를 계산하세요.
  • 회귀를 실행하세요:
    • 먼저 Series x를 DataFrame dfx로 변환하세요.
    • sm.add_constant()로 상수를 추가해 dfx1에 할당하세요.
    • sm.OLS().fit()을 사용해 y를 dfx1에 회귀하세요.
  • 회귀 결과를 출력하고 R-제곱과 상관계수를 비교하세요.