Gegenereerde tekst evalueren met ROUGE
Je krijgt 10 voorbeelden uit een question-answering-gegevensset (Softage-AI/sft-conversational_dataset).
Je hebt TinyLlama-1.1B gebruikt om antwoorden op deze voorbeelden te genereren, en jouw taak is om de kwaliteit van de gegenereerde resultaten te evalueren ten opzichte van de ground truth.
De antwoorden die door dit model zijn gegenereerd staan in test_answers en de ground truth in reference_answers. Gebruik de ROUGE-evaluatiemetrieken om de kwaliteit van de generaties van het model te evalueren.
Deze oefening maakt deel uit van de cursus
Fijn-afstemmen met Llama 3
Oefeninstructies
- Importeer de evaluatieklasse en de metriek (ROUGE-metriek).
- Instantier de evaluatieklasse en laad de ROUGE-metriek.
- Voer de evaluator-instantie uit met de gegeven
reference_answersentest_answersom de ROUGE-scores te berekenen. - Sla in
final_scorede score op uit de resultaten die de overlap van woordparen controleert tussen de referentie- en gegenereerde antwoorden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the evaluation library from Hugging Face
import ____
# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____)
# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____
# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)