학습

/

강의

/

Reinforcement Learning from Human Feedback (RLHF)

Connected

연습 문제

텍스트 데이터셋 토크나이즈하기

여행 웹사이트의 시장 조사를 진행 중이며, 기존 데이터셋을 활용해 호텔 리뷰를 분류하는 모델을 파인튜닝하려고 해요. 이를 위해 datasets 라이브러리를 사용하기로 합니다.

transformers의 AutoTokenizer 클래스와 datasets의 load_dataset()은 미리 임포트되어 있어요.

지침

100 XP

텍스트를 동일한 크기의 배치로 처리할 수 있도록 토크나이저에 패딩을 추가하세요.
사전 학습된 GPT 토크나이저와 정의된 함수를 사용해 텍스트 데이터를 토크나이즈하세요.