1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Fine-Tuning s Llama 3

Connected

cvičení

Vyhodnocení generovaného textu pomocí ROUGE

Máš k dispozici 10 vzorků z datasetu pro odpovídání na otázky (Softage-AI/sft-conversational_dataset).

Model TinyLlama-1.1B jsi použil/a k vygenerování odpovědí na tyto vzorky a tvým úkolem je vyhodnotit kvalitu generovaných výsledků vůči správným odpovědím.

Odpovědi vygenerované tímto modelem jsou uloženy v test_answers, správné odpovědi pak v reference_answers. Kvalitu generování modelu vyhodnoť pomocí evaluačních metrik ROUGE.

Pokyny

100 XP
  • Importuj evaluační třídu a metriku (metrika ROUGE).
  • Vytvoř instanci evaluační třídy a načti metriku ROUGE.
  • Spusť evaluační instanci s danými reference_answers a test_answers a vypočítej skóre ROUGE.
  • Do proměnné final_score ulož skóre z výsledků, které měří překryv dvojic slov mezi referenčními a vygenerovanými odpověďmi.