1. 学ぶ
  2. /
  3. コース
  4. /
  5. Llama 3 のファインチューニング

Connected

演習

ROUGE を使って生成テキストを評価する

質問応答データセット(Softage-AI/sft-conversational_dataset)から 10 件のサンプルが与えられています。

これらのサンプルに対して TinyLlama-1.1B を用いて回答を生成しました。あなたのタスクは、生成結果の品質を正解と比較して評価することです。

このモデルが生成した回答は test_answers に、正解は reference_answers に用意されています。ROUGE 評価指標を用いて、モデルの生成品質を評価してください。

指示

100 XP
  • 評価用のクラスとメトリクス(ROUGE メトリクス)をインポートします。
  • 評価クラスをインスタンス化し、ROUGE メトリクスを読み込みます。
  • 与えられた reference_answers と test_answers を使って、評価インスタンスを実行し、ROUGE スコアを計算します。
  • final_score には、参照回答と生成回答の間で単語ペアの重なりを確認する結果のスコアを保存します。