Faible confiance
Dans cet exercice, vous allez utiliser un modèle de récompense pour évaluer avec quelle certitude il classe un texte en entrée et filtrer les prédictions peu fiables. L’objectif est d’évaluer la capacité du modèle à générer des prédictions et d’appliquer un seuil de confiance afin de ne considérer comme valides que les prédictions à forte confiance.
Les distributions de probabilités pour chaque retour textuel (prob_dists) et les textes de retour (texts), ainsi que la fonction least_confidence(), ont été chargés.
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Définissez la fonction qui filtre les indices des distributions de probabilités dont la confiance est inférieure à un seuil donné.
- Obtenez les indices des commentaires en passant les distributions de probabilités à la fonction, en conservant le seuil inchangé (
0.5).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
filtered_indices = [i for i, ____ in enumerate(____) ____]
return filtered_indices
# Find the indices
filtered_indices = ____
high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)