Vyhodnocení generovaného textu pomocí ROUGE

Máš k dispozici 10 vzorků z datasetu pro odpovídání na otázky (Softage-AI/sft-conversational_dataset).

Model TinyLlama-1.1B jsi použil/a k vygenerování odpovědí na tyto vzorky a tvým úkolem je vyhodnotit kvalitu generovaných výsledků vůči správným odpovědím.

Odpovědi vygenerované tímto modelem jsou uloženy v test_answers, správné odpovědi pak v reference_answers. Kvalitu generování modelu vyhodnoť pomocí evaluačních metrik ROUGE.

Importuj evaluační třídu a metriku (metrika ROUGE).
Vytvoř instanci evaluační třídy a načti metriku ROUGE.
Spusť evaluační instanci s danými reference_answers a test_answers a vypočítej skóre ROUGE.
Do proměnné final_score ulož skóre z výsledků, které měří překryv dvojic slov mezi referenčními a vygenerovanými odpověďmi.

cvičení

Vyhodnocení generovaného textu pomocí ROUGE

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení