Valuta il testo generato con ROUGE
Ti vengono forniti 10 esempi da un insieme di dati di question answering (Softage-AI/sft-conversational_dataset).
Hai usato TinyLlama-1.1B per generare le risposte a questi esempi, e il tuo compito è valutare la qualità dei risultati generati rispetto alla verità a terra (ground truth).
Le risposte generate da questo modello sono fornite in test_answers e la ground truth in reference_answers. Usa le metriche di valutazione ROUGE per valutare la qualità della generazione del modello.
Questo esercizio fa parte del corso
Fine-tuning con Llama 3
Istruzioni dell'esercizio
- Importa la classe di valutazione e la metrica (metrica ROUGE).
- Istanzia la classe di valutazione e carica la metrica ROUGE.
- Esegui l'istanza dell'evaluator con le
reference_answerse letest_answersfornite per calcolare gli score ROUGE. - Salva in
final_scoreil punteggio dai risultati che verifica la sovrapposizione delle coppie di parole tra le risposte di riferimento e quelle generate.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the evaluation library from Hugging Face
import ____
# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____)
# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____
# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)