고빈도 주가 데이터

더 높은 빈도의 주가 데이터는 MA(1) 모형으로 잘 설명되므로, 이번 장에서 배운 모형을 적용해 보기 좋습니다.

DataFrame intraday에는 Sprint 주식(티커 "S")의 하루치 가격(2017년 9월 1일)이 1분 간격으로 담겨 있어요. 주식시장은 오전 9시 30분부터 오후 4시까지 총 6.5시간(390분) 동안 열립니다.

시계열을 분석하기 전에 약간의 정리가 필요하며, 이번과 다음 두 개의 연습 문제에서 진행합니다. 처음 몇 행을 보면 몇 가지 특징이 보입니다. 먼저, 열 이름이 없습니다. 타임스탬프가 9:30부터 4:00까지가 아니라 0부터 390까지로 되어 있습니다. 그리고 첫 번째 날짜가 "a1504272600"처럼 특이하게 보입니다. 여기서 "a" 뒤의 숫자는 Unix time으로, 1970년 1월 1일부터 경과한 초를 의미해요. 이 데이터셋은 이렇게 일중 데이터에서 날짜를 구분합니다.

데이터 유형을 보면 DATE 열이 object, 즉 문자열로 되어 있습니다. 일부 결측값을 정리하려면 이를 숫자형으로 바꿔야 합니다.

분 단위 데이터의 출처는 Google Finance입니다(데이터 다운로드 방법은 여기를 참고하세요).

datetime 모듈은 이미 임포트되어 있습니다.

.iloc[0,0]을 사용해 첫 번째 날짜를 수동으로 0으로 바꾸세요.
intraday.columns에 두 문자열이 들어 있는 리스트를 할당해 두 열 이름을 'DATE'와 'CLOSE'로 변경하세요.
pandas 속성 .dtypes(괄호 없음)를 사용해 각 열의 데이터 유형을 확인하세요.
pandas 함수 to_numeric()을 사용해 'DATE' 열을 숫자형으로 변환하세요.
pandas 메서드 .set_index()에 문자열 'DATE'를 인자로 전달해(열 전체가 아니라 열의 이름만) 'DATE' 열을 intraday의 새 인덱스로 만드세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제