1. Nauka
  2. /
  3. Kursy
  4. /
  5. Fine-Tuning z Llama 3

Connected

ćwiczenie

Ocena wygenerowanego tekstu przy użyciu ROUGE

Dysponujesz 10 próbkami z zestawu danych do odpowiadania na pytania (Softage-AI/sft-conversational_dataset).

Do wygenerowania odpowiedzi na te próbki użyto modelu TinyLlama-1.1B. Twoim zadaniem jest ocena jakości wygenerowanych odpowiedzi w porównaniu z odpowiedziami wzorcowymi.

Odpowiedzi wygenerowane przez model są dostępne w zmiennej test_answers, a odpowiedzi wzorcowe w zmiennej reference_answers. Użyj metryk ewaluacyjnych ROUGE, aby ocenić jakość generowania modelu.

Instrukcje

100 XP
  • Zaimportuj klasę ewaluacyjną i metrykę (metryka ROUGE).
  • Utwórz instancję klasy ewaluacyjnej i załaduj metrykę ROUGE.
  • Uruchom instancję ewaluatora z podanymi zmiennymi reference_answers i test_answers, aby obliczyć wyniki ROUGE.
  • Zapisz w zmiennej final_score wynik z rezultatów, który sprawdza pokrycie par słów między odpowiedziami wzorcowymi a wygenerowanymi.