Laag vertrouwen

In deze oefening werk je met een rewardmodel om te beoordelen hoe zeker het invoertekst classificeert en om voorspellingen die niet betrouwbaar zijn eruit te filteren. Het doel is om het vermogen van het model om voorspellingen te genereren te evalueren en een vertrouwensdrempel toe te passen, zodat alleen voorspellingen met hoog vertrouwen als geldig worden beschouwd.

De kansverdelingen voor elke feedbacktekst (prob_dists) en de variabele met feedbackteksten (texts), en de functie least_confidence() zijn al geladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

Definieer de functie om de indexen te filteren van kansverdelingen waarvoor het vertrouwen onder een gegeven drempel ligt.
Haal de indexen van de feedbackreacties op door de kansverdelingen aan de functie door te geven, waarbij je de drempel ongewijzigd laat (0.5).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

SkillTag.level.advancedSkillTag.label

4.8+

Begin de cursus gratis

This chapter introduces the basics of Reinforcement Learning with Human Feedback (RLHF), a technique that uses human input to help AI models learn more effectively. Get started with RLHF by understanding how it differs from traditional reinforcement learning and why human feedback can enhance AI performance in various domains.

Exercise 1: Introduction to RLHF Exercise 2: Text generation with RLHF Exercise 3: Classifying generated text for RLHF Exercise 4: RL vs. RLHF Exercise 5: Exploring pre-trained LLMs Exercise 6: Tokenize a text dataset Exercise 7: Fine-tuning for review classification Exercise 8: Preparing data for RLHF Exercise 9: Preparing the preference dataset Exercise 10: Extracting prompts

Discover how to set up systems for gathering human feedback in this Chapter. Learn best practices for collecting high-quality data, from pairwise comparisons to uncertainty sampling, and explore strategies for enhancing your data collection.

Exercise 1: Methoden om feedback van hoge kwaliteit te verzamelen Exercise 2: Vergelijking en beoordeling in RLHF begrijpen Exercise 3: Slogans vergelijken voor een sportschoolcampagne Exercise 4: De kwaliteit en relevantie van feedback meten Exercise 5: Laag vertrouwen

Huidige oefening

Exercise 6: K-means voor het clusteren van feedback Exercise 7: Actief leren Exercise 8: Een active learning-pijplijn implementeren Exercise 9: Active learning-loop

In this Chapter, you'll get into the core of Reinforcement Learning from Human Feedback training. This includes exploring fine-tuning with PPO, techniques to train efficiently, and handling potential divergences from your metrics' objectives.

Exercise 1: Reward models explored Exercise 2: Initializing the reward Exercise 3: Setting up the reward trainer Exercise 4: Training with PPO Exercise 5: Initialize the PPO trainer Exercise 6: PPO fine-tuning Exercise 7: Efficient fine-tuning in RLHF Exercise 8: Prepare for 8-bit Training Exercise 9: Train with LoRA

Explore key techniques for assessing and improving model performance in this last Chapter of Reinforcement Learning from Human Feedback (RLHF): from fine-tuning metrics to incorporating diverse feedback sources, you'll be provided with a comprehensive toolkit to refine your models effectively.

Exercise 1: Model metrics and adjustments Exercise 2: Mitigating negative KL divergence Exercise 3: Checking the reward model Exercise 4: Incorporating diverse feedback sources Exercise 5: Majority voting on multiple data sources Exercise 6: Unreliable data source identification Exercise 7: Evaluating RLHF models Exercise 8: Interpreting curves Exercise 9: Evaluating RLHF with metrics Exercise 10: Wrapping up your RLHF journey