Évaluer un modèle de génération de texte pré-entraîné

L’équipe PyBooks a utilisé un modèle GPT-2 pré-entraîné, avec lequel vous avez déjà expérimenté, pour générer un texte à partir d’une amorce donnée. Elle souhaite maintenant évaluer la qualité de ce texte généré. Pour cela, elle vous a chargé d’évaluer le texte généré en le comparant à un texte de référence.

BLEUScore, ROUGEScore ont été chargés pour vous.

Cet exercice fait partie du cours

Deep Learning pour le texte avec PyTorch

Afficher le cours

Instructions

Commencez par initialiser les deux métriques (BLEU et ROUGE) fournies par torchmetrics.text.
Utilisez ces métriques initialisées pour calculer les scores entre le texte généré et le texte de référence.
Affichez les scores BLEU et ROUGE calculés.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

reference_text = "Once upon a time, there was a little girl who lived in a village near the forest."
generated_text = "Once upon a time, the world was a place of great beauty and great danger. The world of the gods was the place where the great gods were born, and where they were to live."

# Initialize BLEU and ROUGE scorers
bleu = ____()
rouge = ____()

# Calculate the BLEU and ROUGE scores
bleu_score = bleu([____], [[reference_text]])
rouge_score = rouge([generated_text], [[____]])

# Print the BLEU and ROUGE scores
print("BLEU Score:", bleu_score.____())
print("ROUGE Score:", rouge_score)

Modifier et exécuter le code