Geringe Sicherheit
In dieser Übung arbeitest du mit einem Reward-Modell, um zu prüfen, wie sicher es Eingabetexte klassifiziert, und um Vorhersagen herauszufiltern, die nicht verlässlich sind. Ziel ist es, die Fähigkeit des Modells zur Generierung von Vorhersagen zu bewerten und einen Konfidenzschwellenwert anzuwenden, damit nur Vorhersagen mit hoher Sicherheit als gültig gelten.
Die Wahrscheinlichkeitsverteilungen für jeden Feedbacktext (prob_dists) und die Variable mit den Feedbacktexten (texts) sowie die Funktion least_confidence() wurden geladen.
Diese Übung ist Teil des Kurses
<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>Übungsanweisungen
- Definiere die Funktion, um die Indizes der Wahrscheinlichkeitsverteilungen zu filtern, deren Sicherheit unter einem gegebenen Schwellenwert liegt.
- Ermittle die Indizes der Feedback-Kommentare, indem du die Wahrscheinlichkeitsverteilungen an die Funktion übergibst und den Schwellenwert unverändert lässt (
0.5).
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
filtered_indices = [i for i, ____ in enumerate(____) ____]
return filtered_indices
# Find the indices
filtered_indices = ____
high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)