Aan de slagGa gratis aan de slag

Gegenereerde tekst evalueren met ROUGE

Je krijgt 10 voorbeelden uit een question-answering-gegevensset (Softage-AI/sft-conversational_dataset).

Je hebt TinyLlama-1.1B gebruikt om antwoorden op deze voorbeelden te genereren, en jouw taak is om de kwaliteit van de gegenereerde resultaten te evalueren ten opzichte van de ground truth.

De antwoorden die door dit model zijn gegenereerd staan in test_answers en de ground truth in reference_answers. Gebruik de ROUGE-evaluatiemetrieken om de kwaliteit van de generaties van het model te evalueren.

Deze oefening maakt deel uit van de cursus

Fijn-afstemmen met Llama 3

Cursus bekijken

Oefeninstructies

  • Importeer de evaluatieklasse en de metriek (ROUGE-metriek).
  • Instantier de evaluatieklasse en laad de ROUGE-metriek.
  • Voer de evaluator-instantie uit met de gegeven reference_answers en test_answers om de ROUGE-scores te berekenen.
  • Sla in final_score de score op uit de resultaten die de overlap van woordparen controleert tussen de referentie- en gegenereerde antwoorden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the evaluation library from Hugging Face
import ____ 

# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____) 

# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____

# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)
Code bewerken en uitvoeren