Geringe Sicherheit
In dieser Übung arbeitest du mit einem Reward-Modell, um zu prüfen, wie sicher es Eingabetexte klassifiziert, und um Vorhersagen herauszufiltern, die nicht verlässlich sind. Ziel ist es, die Fähigkeit des Modells zur Generierung von Vorhersagen zu bewerten und einen Konfidenzschwellenwert anzuwenden, damit nur Vorhersagen mit hoher Sicherheit als gültig gelten.
Die Wahrscheinlichkeitsverteilungen für jeden Feedbacktext (prob_dists) und die Variable mit den Feedbacktexten (texts) sowie die Funktion least_confidence() wurden geladen.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Definiere die Funktion, um die Indizes der Wahrscheinlichkeitsverteilungen zu filtern, deren Sicherheit unter einem gegebenen Schwellenwert liegt.
- Ermittle die Indizes der Feedback-Kommentare, indem du die Wahrscheinlichkeitsverteilungen an die Funktion übergibst und den Schwellenwert unverändert lässt (
0.5).
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
filtered_indices = [i for i, ____ in enumerate(____) ____]
return filtered_indices
# Find the indices
filtered_indices = ____
high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)