Evalueren met ROUGE
ROUGE wordt vaak gebruikt om samenvattingstaken te evalueren, omdat het de overeenkomsten tussen voorspellingen en referenties controleert. Je hebt een door het model gegenereerde samenvatting, predictions, en een referentiesamenvatting, references, gekregen om te valideren. Bereken de scores om te zien hoe goed het model het heeft gedaan.
De evaluate-bibliotheek is voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Introductie tot LLM’s in Python
Oefeninstructies
- Laad de ROUGE-metriek.
- Bereken de ROUGE-scores tussen de voorspelde en referentie-samenvattingen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the rouge metric
rouge = ____
predictions = ["""Pluto is a dwarf planet in our solar system, located in the Kuiper Belt beyond Neptune, and was formerly considered the ninth planet until its reclassification in 2006."""]
references = ["""Pluto is a dwarf planet in the solar system, located in the Kuiper Belt beyond Neptune, and was previously deemed as a planet until it was reclassified in 2006."""]
# Calculate the rouge scores between the predicted and reference summaries
results = ____
print("ROUGE results: ", results)