학습

/

강의

/

Python으로 배우는 LLM 입문

Connected

연습 문제

evaluate 지표 사용하기

고객 지원 상호작용을 분류하는 LLM을 평가해 볼 시간이에요. 미세 조정한 모델에서 이어서, 이제는 새로운 검증 데이터셋으로 모델의 성능을 평가해 보겠습니다.

일부 상호작용과 그에 해당하는 레이블은 validate_text와 validate_labels로 미리 로드되어 있어요. model과 tokenizer도 준비되어 있습니다.

지침

100 XP

outputs에 있는 모델 logits에서 예측 레이블을 추출하세요.
실제 레이블(validate_labels)과 예측 레이블을 비교하여 로드된 네 가지 지표를 계산하세요.