Train/Test 분할

과적합을 피하기 위해 Machine Learning에서는 데이터를 학습용과 테스트용으로 분할하는 것이 일반적입니다. 이렇게 하면 모델이 보지 못한 새로운 데이터를 올바르게 예측할 수 있는지 확인할 수 있어요.

시계열 데이터를 다루고 있으므로 무작위 분할 방법은 사용할 수 없습니다. 그렇게 하면 모델이 미래 정보를 알게 되기 때문이에요.

DataFrame의 시작과 끝을 출력하는 함수 show_start_end()가 제공됩니다. 이 함수는 DataFrame 하나를 인자로 받아 문자열을 반환합니다.