ComenzarEmpieza gratis

Evalúa texto generado con ROUGE

Se te proporcionan 10 muestras de un conjunto de datos de preguntas y respuestas (Softage-AI/sft-conversational_dataset).

Has usado TinyLlama-1.1B para generar respuestas a estas muestras, y tu tarea es evaluar la calidad de los resultados generados frente a la verdad terreno.

Las respuestas generadas por este modelo están en test_answers y la verdad terreno en reference_answers. Usa las métricas de evaluación ROUGE para valorar la calidad de la generación del modelo.

Este ejercicio forma parte del curso

Ajuste fino con Llama 3

Ver curso

Instrucciones del ejercicio

  • Importa la clase de evaluación y la métrica (métrica ROUGE).
  • Instancia la clase de evaluación y carga la métrica ROUGE.
  • Ejecuta la instancia del evaluador con reference_answers y test_answers para calcular las puntuaciones ROUGE.
  • Guarda en final_score la puntuación de los resultados que comprueba el solapamiento de pares de palabras entre las respuestas de referencia y las generadas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the evaluation library from Hugging Face
import ____ 

# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____) 

# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____

# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)
Editar y ejecutar código