IniziaInizia gratis

Valuta il testo generato con ROUGE

Ti vengono forniti 10 esempi da un insieme di dati di question answering (Softage-AI/sft-conversational_dataset).

Hai usato TinyLlama-1.1B per generare le risposte a questi esempi, e il tuo compito è valutare la qualità dei risultati generati rispetto alla verità a terra (ground truth).

Le risposte generate da questo modello sono fornite in test_answers e la ground truth in reference_answers. Usa le metriche di valutazione ROUGE per valutare la qualità della generazione del modello.

Questo esercizio fa parte del corso

Fine-tuning con Llama 3

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe di valutazione e la metrica (metrica ROUGE).
  • Istanzia la classe di valutazione e carica la metrica ROUGE.
  • Esegui l'istanza dell'evaluator con le reference_answers e le test_answers fornite per calcolare gli score ROUGE.
  • Salva in final_score il punteggio dai risultati che verifica la sovrapposizione delle coppie di parole tra le risposte di riferimento e quelle generate.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the evaluation library from Hugging Face
import ____ 

# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____) 

# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____

# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)
Modifica ed esegui il codice