Ocena wygenerowanego tekstu przy użyciu ROUGE

Dysponujesz 10 próbkami z zestawu danych do odpowiadania na pytania (Softage-AI/sft-conversational_dataset).

Do wygenerowania odpowiedzi na te próbki użyto modelu TinyLlama-1.1B. Twoim zadaniem jest ocena jakości wygenerowanych odpowiedzi w porównaniu z odpowiedziami wzorcowymi.

Odpowiedzi wygenerowane przez model są dostępne w zmiennej test_answers, a odpowiedzi wzorcowe w zmiennej reference_answers. Użyj metryk ewaluacyjnych ROUGE, aby ocenić jakość generowania modelu.

Zaimportuj klasę ewaluacyjną i metrykę (metryka ROUGE).
Utwórz instancję klasy ewaluacyjnej i załaduj metrykę ROUGE.
Uruchom instancję ewaluatora z podanymi zmiennymi reference_answers i test_answers, aby obliczyć wyniki ROUGE.
Zapisz w zmiennej final_score wynik z rezultatów, który sprawdza pokrycie par słów między odpowiedziami wzorcowymi a wygenerowanymi.

ćwiczenie

Ocena wygenerowanego tekstu przy użyciu ROUGE

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie