ROUGE kullanarak üretilen metni değerlendir
Sana bir soru-cevap veri kümesinden (Softage-AI/sft-conversational_dataset) 10 örnek verildi.
Bu örnekler için yanıtlar üretmek üzere TinyLlama-1.1B modelini kullandın ve görevin, üretilen sonuçların kalitesini altın standartla karşılaştırarak değerlendirmek.
Bu modelin ürettiği yanıtlar test_answers içinde, altın standart yanıtlar ise reference_answers içinde verilmiştir. Modelin üretim kalitesini değerlendirmek için ROUGE değerlendirme metriklerini kullan.
Bu egzersiz
Llama 3 ile İnce Ayar (Fine-Tuning)
kursunun bir parçasıdırEgzersiz talimatları
- Değerlendirme sınıfını ve metriği (ROUGE metriği) içe aktar.
- Değerlendirme sınıfını başlat ve ROUGE metriğini yükle.
- Verilen
reference_answersvetest_answersile değerlendiriciyi çalıştırarak ROUGE skorlarını hesapla. final_scoreiçinde, başvuru ve üretilen yanıtlar arasındaki kelime çifti örtüşmesini kontrol eden sonucun skorunu sakla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the evaluation library from Hugging Face
import ____
# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____)
# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____
# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)