LoslegenKostenlos loslegen

Geringe Sicherheit

In dieser Übung arbeitest du mit einem Reward-Modell, um zu prüfen, wie sicher es Eingabetexte klassifiziert, und um Vorhersagen herauszufiltern, die nicht verlässlich sind. Ziel ist es, die Fähigkeit des Modells zur Generierung von Vorhersagen zu bewerten und einen Konfidenzschwellenwert anzuwenden, damit nur Vorhersagen mit hoher Sicherheit als gültig gelten.

Die Wahrscheinlichkeitsverteilungen für jeden Feedbacktext (prob_dists) und die Variable mit den Feedbacktexten (texts) sowie die Funktion least_confidence() wurden geladen.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Definiere die Funktion, um die Indizes der Wahrscheinlichkeitsverteilungen zu filtern, deren Sicherheit unter einem gegebenen Schwellenwert liegt.
  • Ermittle die Indizes der Feedback-Kommentare, indem du die Wahrscheinlichkeitsverteilungen an die Funktion übergibst und den Schwellenwert unverändert lässt (0.5).

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)
Code bearbeiten und ausführen