1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 금융 분야 Machine Learning

Connected

연습 문제

상관관계

Machine Learning 모델을 만들기 전에 상관관계를 확인하면, 어떤 특성이 타깃과 가장 강하게 연관되는지 파악할 수 있어요. 흔히 Pearson 상관계수를 사용하는데, 이는 선형 관계만을 탐지합니다. 데이터가 정규분포라고 가정하는 경우가 많고, 히스토그램으로 대략 확인(eyeball)할 수 있어요. 상관계수가 1에 가까우면 양의 상관, -1에 가까우면 음의 상관이며, 0에 가까우면 두 변수는 선형적으로 상관되지 않는다는 뜻입니다.

과거 가격 변화와 미래 가격 변화에 같은 기간 길이를 사용하면, 주가가 평균회귀(평균으로 되돌아오는 경향)인지, 아니면 추세추종(최근에 올랐다면 앞으로도 오르는 경향)인지 살펴볼 수 있어요.

지침

100 XP

lng_df DataFrame과 그 안의 Adj_Close를 사용해서 다음을 수행하세요:

  • pandas의 .shift(-5)로 5일 뒤 종가(5d_future_close)를 만드세요.
  • 5d_future_close와 Adj_Close에 pct_change(5)를 적용해, 미래 5일 % 가격 변화(5d_close_future_pct)와 현재 5일 % 가격 변화(5d_close_pct)를 생성하세요.
  • lng_df에서 .corr()를 사용해 두 개의 5일 % 가격 변화 열 간 상관관계를 확인하세요.
  • plt.scatter()로 5d_close_pct 대 5d_close_future_pct 산점도를 그리세요.