Entendendo métricas de geração de texto

Na PyBooks, a equipe acabou de avaliar o desempenho de um modelo pré-treinado usando a pontuação BLEU e obteve um resultado de aproximadamente 0,082 e um rouge1_fmeasure por volta de 0,2692. Essa métrica é um indicativo de precisão (quantos itens selecionados são relevantes) e revocação (quantos itens relevantes são selecionados). Como você interpretaria essa pontuação em termos do desempenho do modelo?

Este exercício faz parte do curso

Deep Learning para Texto com PyTorch

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício