EDA로 데이터 훑어보기

먼저 데이터를 살펴보겠습니다. Machine Learning(ML) 프로젝트를 시작할 때는 항상 탐색적 데이터 분석(EDA)으로 데이터에 익숙해지는 과정이 필요해요. 여기에는 다음과 같은 작업이 포함됩니다:

원시(raw) 데이터 플롯
히스토그램
기타 등등

저는 보통 원시 데이터 플롯과 히스토그램부터 시작합니다. 이렇게 하면 데이터의 분포를 이해할 수 있어요. 정규분포에 가깝다면 모수 통계 같은 방법을 사용할 수 있죠.

두 개의 주식 데이터가 pandas DataFrame인 lng_df와 spy_df(LNG와 SPY)로 불러와져 있어요. .head()로 확인해 보세요. 우리는 종가와 나중에는 거래량을 ML 알고리즘의 입력으로 사용할 예정입니다.

참고: 새 플롯을 만들 때마다 plt.clf() 또는 f = plt.figure()를 호출할 거예요.

두 DataFrame(lng_df, spy_df)의 처음 5줄을 출력하고 내용을 확인하세요.
pandas를 사용해 'SPY'와 'LNG'의 조정 종가('Adj_Close')로 원시 시계열 데이터를 플로팅하세요 — .plot()에서 legend=True를 설정하세요.
원시 시계열 플롯을 표시하려면 plt.show()를 사용하세요(matplotlib.pyplot은 plt로 임포트되어 있습니다).
pandas와 matplotlib로 SPY와 LNG의 조정 종가 1일 퍼센트 변화( .pct_change() 사용 )에 대한 히스토그램을 만드세요.