Baixa confiança
Neste exercício, você vai trabalhar com um modelo de recompensa para avaliar com quanta confiança ele classifica textos de entrada e filtrar previsões que não são confiáveis. O objetivo é avaliar a capacidade do modelo de gerar previsões e aplicar um limite de confiança para garantir que apenas previsões de alta confiança sejam consideradas válidas.
As distribuições de probabilidade de cada texto de feedback (prob_dists) e a variável de textos de feedback (texts), além da função least_confidence(), já foram carregadas.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Defina a função para filtrar os índices das distribuições de probabilidade cuja confiança esteja abaixo de um determinado limite.
- Obtenha os índices dos comentários de feedback passando as distribuições de probabilidade para a função, mantendo o limite inalterado (
0.5).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
filtered_indices = [i for i, ____ in enumerate(____) ____]
return filtered_indices
# Find the indices
filtered_indices = ____
high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)