ROUGE を使って生成テキストを評価する

質問応答データセット（Softage-AI/sft-conversational_dataset）から 10 件のサンプルが与えられています。

これらのサンプルに対して TinyLlama-1.1B を用いて回答を生成しました。あなたのタスクは、生成結果の品質を正解と比較して評価することです。

このモデルが生成した回答は test_answers に、正解は reference_answers に用意されています。ROUGE 評価指標を用いて、モデルの生成品質を評価してください。