ComeçarComece de graça

Usando métricas de avaliação

É hora de avaliar o site LLM que classifica as interações de suporte ao cliente. Retomando de onde parou o modelo ajustado, você usará agora um novo conjunto de dados de validação para avaliar o desempenho do modelo.

Algumas interações e seus rótulos correspondentes foram carregados para você como validate_text e validate_labels. Os sites model e tokenizer também são carregados.

Este exercício faz parte do curso

Introdução aos LLMs em Python

Ver curso

Instruções do exercício

  • Extraia os rótulos previstos dos logits do modelo encontrados no site outputs.
  • Calcule as quatro métricas carregadas comparando rótulos reais (validate_labels) e previstos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")

# Extract the new predictions
predicted_labels = ____

# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
Editar e executar o código