Évaluer un texte généré avec ROUGE
Vous disposez de 10 échantillons issus d’un jeu de données de question-réponse (Softage-AI/sft-conversational_dataset).
Vous avez utilisé TinyLlama-1.1B pour générer des réponses à ces échantillons, et votre tâche est d’évaluer la qualité des résultats générés par rapport à la vérité terrain.
Les réponses générées par ce modèle sont fournies dans test_answers et la vérité terrain dans reference_answers. Utilisez les métriques d’évaluation ROUGE pour évaluer la qualité des générations du modèle.
Cet exercice fait partie du cours
Ajustement fin avec Llama 3
Instructions
- Importez la classe d’évaluation et la métrique (métrique ROUGE).
- Instanciez la classe d’évaluation et chargez la métrique ROUGE.
- Exécutez l’instance de l’évaluateur avec
reference_answersettest_answerspour calculer les scores ROUGE. - Stockez, dans
final_score, le score des résultats qui mesure le recouvrement des paires de mots entre la référence et les réponses générées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the evaluation library from Hugging Face
import ____
# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____)
# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____
# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)