모델 입력을 위한 텍스트 데이터 준비

앞서 단어에 대한 인덱스 사전과 그 반대 사전을 만드는 방법을 배웠습니다. 이 연습 문제에서는 텍스트를 문자 단위로 분할하고, 지도 학습을 위한 데이터 준비를 이어서 진행해 보겠습니다.

텍스트를 문자 단위로 나누는 방식이 다소 낯설게 느껴질 수 있지만, 텍스트 생성(task)에서는 흔히 사용하는 방법입니다. 또한 데이터 준비 과정은 동일하고, 달라지는 점은 텍스트를 분할하는 방식뿐입니다.

고정 길이의 텍스트 목록과 그 레이블(해당 텍스트 다음에 올 문자)로 구성된 학습 데이터를 만들게 됩니다.