BaşlayınÜcretsiz Başlayın

ROUGE kullanarak üretilen metni değerlendir

Sana bir soru-cevap veri kümesinden (Softage-AI/sft-conversational_dataset) 10 örnek verildi.

Bu örnekler için yanıtlar üretmek üzere TinyLlama-1.1B modelini kullandın ve görevin, üretilen sonuçların kalitesini altın standartla karşılaştırarak değerlendirmek.

Bu modelin ürettiği yanıtlar test_answers içinde, altın standart yanıtlar ise reference_answers içinde verilmiştir. Modelin üretim kalitesini değerlendirmek için ROUGE değerlendirme metriklerini kullan.

Bu egzersiz

Llama 3 ile İnce Ayar (Fine-Tuning)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Değerlendirme sınıfını ve metriği (ROUGE metriği) içe aktar.
  • Değerlendirme sınıfını başlat ve ROUGE metriğini yükle.
  • Verilen reference_answers ve test_answers ile değerlendiriciyi çalıştırarak ROUGE skorlarını hesapla.
  • final_score içinde, başvuru ve üretilen yanıtlar arasındaki kelime çifti örtüşmesini kontrol eden sonucun skorunu sakla.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import the evaluation library from Hugging Face
import ____ 

# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____) 

# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____

# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)
Kodu Düzenle ve Çalıştır