Generierten Text mit ROUGE auswerten
Dir stehen 10 Beispiele aus einem Frage-Antwort-Datensatz (Softage-AI/sft-conversational_dataset) zur Verfügung.
Du hast TinyLlama-1.1B verwendet, um Antworten für diese Beispiele zu generieren. Deine Aufgabe ist es, die Qualität der generierten Ergebnisse im Vergleich zur Ground-Truth zu bewerten.
Die von diesem Modell generierten Antworten findest du in test_answers, die Ground-Truth in reference_answers. Verwende die ROUGE-Bewertungsmetriken, um die Qualität der Generierung des Modells zu evaluieren.
Diese Übung ist Teil des Kurses
Feinabstimmung mit Llama 3
Anleitung zur Übung
- Importiere die Evaluierungsklasse und die Metrik (ROUGE-Metrik).
- Instanziiere die Evaluierungsklasse und lade die ROUGE-Metrik.
- Führe die Evaluierungsinstanz mit den gegebenen
reference_answersundtest_answersaus, um die ROUGE-Werte zu berechnen. - Speichere in
final_scoreden Wert aus den Ergebnissen, der die Überlappung von Wortpaaren zwischen Referenz- und generierten Antworten prüft.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the evaluation library from Hugging Face
import ____
# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____)
# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____
# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)