CommencerCommencer gratuitement

Évaluer un texte généré avec ROUGE

Vous disposez de 10 échantillons issus d’un jeu de données de question-réponse (Softage-AI/sft-conversational_dataset).

Vous avez utilisé TinyLlama-1.1B pour générer des réponses à ces échantillons, et votre tâche est d’évaluer la qualité des résultats générés par rapport à la vérité terrain.

Les réponses générées par ce modèle sont fournies dans test_answers et la vérité terrain dans reference_answers. Utilisez les métriques d’évaluation ROUGE pour évaluer la qualité des générations du modèle.

Cet exercice fait partie du cours

Ajustement fin avec Llama 3

Afficher le cours

Instructions

  • Importez la classe d’évaluation et la métrique (métrique ROUGE).
  • Instanciez la classe d’évaluation et chargez la métrique ROUGE.
  • Exécutez l’instance de l’évaluateur avec reference_answers et test_answers pour calculer les scores ROUGE.
  • Stockez, dans final_score, le score des résultats qui mesure le recouvrement des paires de mots entre la référence et les réponses générées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the evaluation library from Hugging Face
import ____ 

# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____) 

# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____

# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)
Modifier et exécuter le code