Aan de slagBegin gratis

Laag vertrouwen

In deze oefening werk je met een rewardmodel om te beoordelen hoe zeker het invoertekst classificeert en om voorspellingen die niet betrouwbaar zijn eruit te filteren. Het doel is om het vermogen van het model om voorspellingen te genereren te evalueren en een vertrouwensdrempel toe te passen, zodat alleen voorspellingen met hoog vertrouwen als geldig worden beschouwd.

De kansverdelingen voor elke feedbacktekst (prob_dists) en de variabele met feedbackteksten (texts), en de functie least_confidence() zijn al geladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Bekijk cursus

Oefeninstructies

  • Definieer de functie om de indexen te filteren van kansverdelingen waarvoor het vertrouwen onder een gegeven drempel ligt.
  • Haal de indexen van de feedbackreacties op door de kansverdelingen aan de functie door te geven, waarbij je de drempel ongewijzigd laat (0.5).

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)
Code bewerken en uitvoeren