LoslegenKostenlos loslegen

Generierten Text mit ROUGE auswerten

Dir stehen 10 Beispiele aus einem Frage-Antwort-Datensatz (Softage-AI/sft-conversational_dataset) zur Verfügung.

Du hast TinyLlama-1.1B verwendet, um Antworten für diese Beispiele zu generieren. Deine Aufgabe ist es, die Qualität der generierten Ergebnisse im Vergleich zur Ground-Truth zu bewerten.

Die von diesem Modell generierten Antworten findest du in test_answers, die Ground-Truth in reference_answers. Verwende die ROUGE-Bewertungsmetriken, um die Qualität der Generierung des Modells zu evaluieren.

Diese Übung ist Teil des Kurses

Feinabstimmung mit Llama 3

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Evaluierungsklasse und die Metrik (ROUGE-Metrik).
  • Instanziiere die Evaluierungsklasse und lade die ROUGE-Metrik.
  • Führe die Evaluierungsinstanz mit den gegebenen reference_answers und test_answers aus, um die ROUGE-Werte zu berechnen.
  • Speichere in final_score den Wert aus den Ergebnissen, der die Überlappung von Wortpaaren zwischen Referenz- und generierten Antworten prüft.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the evaluation library from Hugging Face
import ____ 

# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____) 

# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____

# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)
Code bearbeiten und ausführen