ROUGE로 생성 텍스트 평가하기

질의응답 데이터셋(Softage-AI/sft-conversational_dataset)에서 가져온 10개의 샘플이 제공됩니다.

TinyLlama-1.1B를 사용해 이 샘플들에 대한 답을 생성했고, 이제 생성 결과가 정답과 얼마나 가까운지 평가하는 것이 과제예요.

이 모델이 생성한 답은 test_answers에, 정답은 reference_answers에 제공됩니다. ROUGE 평가 메트릭을 사용해 모델 생성 결과의 품질을 평가하세요.