Avaliando com ROUGE
ROUGE é comumente usado para avaliar tarefas de resumo, pois verifica as semelhanças entre previsões e referências. Você recebeu um resumo gerado por modelo, predictions, e um resumo references para validação. Calcule as pontuações para ver o desempenho do modelo.
A biblioteca evaluate foi carregada para você.
Este exercício faz parte do curso
Introdução aos LLMs em Python
Instruções do exercício
- Carregue a métrica ROUGE.
- Calcule as pontuações ROUGE entre os resumos previstos e os de referência.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the rouge metric
rouge = ____
predictions = ["""Pluto is a dwarf planet in our solar system, located in the Kuiper Belt beyond Neptune, and was formerly considered the ninth planet until its reclassification in 2006."""]
references = ["""Pluto is a dwarf planet in the solar system, located in the Kuiper Belt beyond Neptune, and was previously deemed as a planet until it was reclassified in 2006."""]
# Calculate the rouge scores between the predicted and reference summaries
results = ____
print("ROUGE results: ", results)