Evalúa texto generado con ROUGE
Se te proporcionan 10 muestras de un conjunto de datos de preguntas y respuestas (Softage-AI/sft-conversational_dataset).
Has usado TinyLlama-1.1B para generar respuestas a estas muestras, y tu tarea es evaluar la calidad de los resultados generados frente a la verdad terreno.
Las respuestas generadas por este modelo están en test_answers y la verdad terreno en reference_answers. Usa las métricas de evaluación ROUGE para valorar la calidad de la generación del modelo.
Este ejercicio forma parte del curso
Ajuste fino con Llama 3
Instrucciones del ejercicio
- Importa la clase de evaluación y la métrica (métrica ROUGE).
- Instancia la clase de evaluación y carga la métrica ROUGE.
- Ejecuta la instancia del evaluador con
reference_answersytest_answerspara calcular las puntuaciones ROUGE. - Guarda en
final_scorela puntuación de los resultados que comprueba el solapamiento de pares de palabras entre las respuestas de referencia y las generadas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the evaluation library from Hugging Face
import ____
# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____)
# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____
# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)