LoslegenKostenlos loslegen

Mehrheitsvoting über mehrere Datenquellen

Dein Team entwickelt ein KI-Modell, das automatisch Qualitätskontrollberichte (QC) für Smartphones erstellt. Dafür habt ihr Präferenzdaten aus drei verschiedenen QC-Quellen gesammelt – einem "Automated Vision System", einem "Human Inspector" und "Customer Feedback". Jede Quelle hat gepaarte Textbeispiele als „chosen“ und „rejected“ gekennzeichnet. Jedes Paar hat eine eindeutige „id“, und jeder Eintrag zeigt eine bevorzugte QC-Bewertung.

quality_df ist ein zusammengeführtes DataFrame, das mit pandas geladen wurde. Es enthält Daten aus den drei verschiedenen Datenquellen. Außerdem wurde die Klasse Counter aus dem Modul collections bereits vorab importiert.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Zähle in der Funktion zum Voting die Vorkommen jeder (chosen, rejected)-Kombination.
  • Finde die (chosen, rejected)-Kombination mit der höchsten Stimmenzahl.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

def majority_vote(df):
  	# Count occurrences of each (chosen, rejected) pair
    votes = ____
    # Find the (chosen, rejected) pair with the highest vote count
    winner = ____
    return winner

final_preferences = quality_df.groupby(['id']).apply(majority_vote)

print(final_preferences)
Code bearbeiten und ausführen