Evaluar con ROUGE
ROUGE se utiliza habitualmente para evaluar las tareas de resumen, ya que comprueba las similitudes entre las predicciones y las referencias. Se te ha proporcionado un resumen generado por el modelo, predictions
, y un resumen de references
para que lo valides. Calcula las puntuaciones para ver el rendimiento del modelo.
Se ha cargado para ti la biblioteca evaluate
.
Este ejercicio forma parte del curso
Introduction to LLMs in Python
Instrucciones de ejercicio
- Carga la métrica ROUGE.
- Calcula las puntuaciones ROUGE entre los resúmenes previstos y los de referencia.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Load the rouge metric
rouge = ____
predictions = ["""Pluto is a dwarf planet in our solar system, located in the Kuiper Belt beyond Neptune, and was formerly considered the ninth planet until its reclassification in 2006."""]
references = ["""Pluto is a dwarf planet in the solar system, located in the Kuiper Belt beyond Neptune, and was previously deemed as a planet until it was reclassified in 2006."""]
# Calculate the rouge scores between the predicted and reference summaries
results = ____
print("ROUGE results: ", results)