道练习

使用 ROUGE 进行评估

ROUGE 常用于评估摘要任务，因为它会比较预测与参考之间的相似度。已为您提供了一个模型生成的摘要 predictions，以及一个用于验证的参考摘要 references。请计算得分，看看模型的表现如何。

evaluate 库已为您加载。

100 XP