ComeçarComece de graça

Baixa confiança

Neste exercício, você vai trabalhar com um modelo de recompensa para avaliar com quanta confiança ele classifica textos de entrada e filtrar previsões que não são confiáveis. O objetivo é avaliar a capacidade do modelo de gerar previsões e aplicar um limite de confiança para garantir que apenas previsões de alta confiança sejam consideradas válidas.

As distribuições de probabilidade de cada texto de feedback (prob_dists) e a variável de textos de feedback (texts), além da função least_confidence(), já foram carregadas.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Defina a função para filtrar os índices das distribuições de probabilidade cuja confiança esteja abaixo de um determinado limite.
  • Obtenha os índices dos comentários de feedback passando as distribuições de probabilidade para a função, mantendo o limite inalterado (0.5).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)
Editar e executar o código