PPO 트레이너 초기화

여러분은 고객 문의를 처리하는 챗봇을 운영하는 고객 지원 회사에서 일하고 있어요. 챗봇이 도움 되는 답변을 제공하긴 하지만, 최근 답변의 깊이가 부족하다는 피드백을 받았습니다. 챗봇 뒤의 모델을 미세 조정해야 하며, 먼저 PPO 트레이너 인스턴스를 만드는 것부터 시작합니다.

dataset_cs는 이미 로드되어 있습니다.