Aan de slagGa gratis aan de slag

Laag vertrouwen

In deze oefening werk je met een rewardmodel om te beoordelen hoe zeker het invoertekst classificeert en om voorspellingen die niet betrouwbaar zijn eruit te filteren. Het doel is om het vermogen van het model om voorspellingen te genereren te evalueren en een vertrouwensdrempel toe te passen, zodat alleen voorspellingen met hoog vertrouwen als geldig worden beschouwd.

De kansverdelingen voor elke feedbacktekst (prob_dists) en de variabele met feedbackteksten (texts), en de functie least_confidence() zijn al geladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Definieer de functie om de indexen te filteren van kansverdelingen waarvoor het vertrouwen onder een gegeven drempel ligt.
  • Haal de indexen van de feedbackreacties op door de kansverdelingen aan de functie door te geven, waarbij je de drempel ongewijzigd laat (0.5).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)
Code bewerken en uitvoeren