Mehrheitsvoting über mehrere Datenquellen
Dein Team entwickelt ein KI-Modell, das automatisch Qualitätskontrollberichte (QC) für Smartphones erstellt. Dafür habt ihr Präferenzdaten aus drei verschiedenen QC-Quellen gesammelt – einem "Automated Vision System", einem "Human Inspector" und "Customer Feedback". Jede Quelle hat gepaarte Textbeispiele als „chosen“ und „rejected“ gekennzeichnet. Jedes Paar hat eine eindeutige „id“, und jeder Eintrag zeigt eine bevorzugte QC-Bewertung.
quality_df ist ein zusammengeführtes DataFrame, das mit pandas geladen wurde. Es enthält Daten aus den drei verschiedenen Datenquellen. Außerdem wurde die Klasse Counter aus dem Modul collections bereits vorab importiert.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Zähle in der Funktion zum Voting die Vorkommen jeder (chosen, rejected)-Kombination.
- Finde die (chosen, rejected)-Kombination mit der höchsten Stimmenzahl.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
def majority_vote(df):
# Count occurrences of each (chosen, rejected) pair
votes = ____
# Find the (chosen, rejected) pair with the highest vote count
winner = ____
return winner
final_preferences = quality_df.groupby(['id']).apply(majority_vote)
print(final_preferences)