Geringe Sicherheit

In dieser Übung arbeitest du mit einem Reward-Modell, um zu prüfen, wie sicher es Eingabetexte klassifiziert, und um Vorhersagen herauszufiltern, die nicht verlässlich sind. Ziel ist es, die Fähigkeit des Modells zur Generierung von Vorhersagen zu bewerten und einen Konfidenzschwellenwert anzuwenden, damit nur Vorhersagen mit hoher Sicherheit als gültig gelten.

Die Wahrscheinlichkeitsverteilungen für jeden Feedbacktext (prob_dists) und die Variable mit den Feedbacktexten (texts) sowie die Funktion least_confidence() wurden geladen.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Anleitung zur Übung

Definiere die Funktion, um die Indizes der Wahrscheinlichkeitsverteilungen zu filtern, deren Sicherheit unter einem gegebenen Schwellenwert liegt.
Ermittle die Indizes der Feedback-Kommentare, indem du die Wahrscheinlichkeitsverteilungen an die Funktion übergibst und den Schwellenwert unverändert lässt (0.5).

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Dieses Kapitel führt in die Grundlagen von Reinforcement Learning aus menschlichem Feedback (RLHF) ein – eine Technik, die menschliche Rückmeldungen nutzt, damit KI-Modelle effektiver lernen. Starte mit RLHF, indem du verstehst, wie es sich vom klassischen Reinforcement Learning unterscheidet und warum menschliches Feedback die KI-Leistung in verschiedenen Bereichen steigern kann.

Exercise 1: Einführung in RLHF Exercise 2: Textgenerierung mit RLHF Exercise 3: Generierten Text für RLHF klassifizieren Exercise 4: RL vs. RLHF Exercise 5: Vortrainierte LLMs erkunden Exercise 6: Einen Textdatensatz tokenisieren Exercise 7: Feinabstimmung für die Review-Klassifikation Exercise 8: Daten für RLHF vorbereiten Exercise 9: Den Präferenzdatensatz vorbereiten Exercise 10: Prompts extrahieren

Erfahre in diesem Kapitel, wie du Systeme für das Sammeln von menschlichem Feedback aufsetzt. Lerne Best Practices für das Erheben hochwertiger Daten – von paarweisen Vergleichen bis hin zu Uncertainty Sampling – und entdecke Strategien, um deine Datenerhebung zu verbessern.

Exercise 1: Methoden für hochwertiges Feedback-Sammeln Exercise 2: Vergleich und Bewertung in RLHF verstehen Exercise 3: Slogans für eine Fitnessstudio-Kampagne vergleichen Exercise 4: Qualität und Relevanz von Feedback messen Exercise 5: Geringe Sicherheit

Aktuelle Übung

Exercise 6: K-Means für Feedback-Clustering Exercise 7: Aktives Lernen Exercise 8: Eine Active-Learning-Pipeline implementieren Exercise 9: Active-Learning-Schleife

In diesem Kapitel tauchst du in den Kern des Trainings mit Reinforcement Learning aus menschlichem Feedback ein. Dazu gehören Fine-Tuning mit PPO, effiziente Trainingsmethoden und der Umgang mit möglichen Abweichungen von den Zielgrößen deiner Metriken.

Exercise 1: Reward-Modelle im Detail Exercise 2: Den Reward initialisieren Exercise 3: Den Reward Trainer einrichten Exercise 4: Training mit PPO Exercise 5: Den PPO-Trainer initialisieren Exercise 6: PPO-Finetuning Exercise 7: Effizientes Finetuning in RLHF Exercise 8: Für 8-Bit-Training vorbereiten Exercise 9: Mit LoRA trainieren

Entdecke in diesem letzten Kapitel zu Reinforcement Learning aus menschlichem Feedback (RLHF) zentrale Techniken zur Bewertung und Verbesserung der Modellleistung: von Fine-Tuning-Metriken bis zur Einbindung vielfältiger Feedbackquellen erhältst du ein umfassendes Toolkit, um deine Modelle gezielt zu verfeinern.

Exercise 1: Modellmetriken und Anpassungen Exercise 2: Negative KL-Divergenz abmildern Exercise 3: Das Reward-Modell überprüfen Exercise 4: Verschiedene Feedbackquellen einbinden Exercise 5: Mehrheitsvoting über mehrere Datenquellen Exercise 6: Unzuverlässige Datenquelle identifizieren Exercise 7: RLHF-Modelle bewerten Exercise 8: Kurven interpretieren Exercise 9: RLHF mit Metriken bewerten Exercise 10: Zum Abschluss deiner RLHF-Reise