1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 LLM 입문

Connected

연습 문제

토크나이제이션 매핑

이제 토크나이제이션을 더 세밀하게 제어해 보고, 행 단위 또는 배치 단위로 데이터를 토크나이즈하는 방법을 시험해 보려고 합니다. 이렇게 하면 학습에 필요한 DataSet 객체 형태의 결과도 얻을 수 있어요.

tokenizer는 train_data와 test_data와 함께 미리 로드되어 있습니다.

지침 1/2

undefined XP
  • 1
    • 시퀀스 잘림을 포함해 토크나이즈된 텐서를 반환하도록 tokenize_function을 완성하고, train_data를 배치 단위로 토크나이즈하세요.
  • 2
    • tokenize_function을 train_data에 적용하고, 행 단위로 토크나이즈하세요.