Inzicht in evaluatiemetrics voor tekstopwekking
Bij PyBooks heeft het team zojuist de prestaties van een voorgetraind model geëvalueerd met de BLEU-score en kreeg ongeveer 0,082 en een rouge1_fmeasure van rond 0,2692. Deze metric is een indicatie van precisie (hoeveel geselecteerde items relevant zijn) en recall (hoeveel relevante items zijn geselecteerd). Hoe zou je deze score interpreteren in termen van de modelprestaties?
Deze oefening maakt deel uit van de cursus
Deep Learning voor tekst met PyTorch
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen