Évaluer un modèle de génération de texte pré-entraîné
L’équipe PyBooks a utilisé un modèle GPT-2 pré-entraîné, avec lequel vous avez déjà expérimenté, pour générer un texte à partir d’une amorce donnée. Elle souhaite maintenant évaluer la qualité de ce texte généré. Pour cela, elle vous a chargé d’évaluer le texte généré en le comparant à un texte de référence.
BLEUScore, ROUGEScore ont été chargés pour vous.
Cet exercice fait partie du cours
Deep Learning pour le texte avec PyTorch
Instructions
- Commencez par initialiser les deux métriques (BLEU et ROUGE) fournies par
torchmetrics.text. - Utilisez ces métriques initialisées pour calculer les scores entre le texte généré et le texte de référence.
- Affichez les scores BLEU et ROUGE calculés.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
reference_text = "Once upon a time, there was a little girl who lived in a village near the forest."
generated_text = "Once upon a time, the world was a place of great beauty and great danger. The world of the gods was the place where the great gods were born, and where they were to live."
# Initialize BLEU and ROUGE scorers
bleu = ____()
rouge = ____()
# Calculate the BLEU and ROUGE scores
bleu_score = bleu([____], [[reference_text]])
rouge_score = rouge([generated_text], [[____]])
# Print the BLEU and ROUGE scores
print("BLEU Score:", bleu_score.____())
print("ROUGE Score:", rouge_score)