Usando métricas de avaliação
É hora de avaliar o site LLM que classifica as interações de suporte ao cliente. Retomando de onde parou o modelo ajustado, você usará agora um novo conjunto de dados de validação para avaliar o desempenho do modelo.
Algumas interações e seus rótulos correspondentes foram carregados para você como validate_text e validate_labels. Os sites model e tokenizer também são carregados.
Este exercício faz parte do curso
Introdução aos LLMs em Python
Instruções do exercício
- Extraia os rótulos previstos dos logits do modelo encontrados no site
outputs. - Calcule as quatro métricas carregadas comparando rótulos reais (
validate_labels) e previstos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))