Meerderheidsstemming over meerdere databronnen
Je team ontwikkelt een AI-model dat automatisch kwaliteitscontrole- (QC) rapporten voor smartphones genereert. Hiervoor heb je voorkeurdata verzameld uit drie verschillende QC-bronnen: een "Automated Vision System", een "Human Inspector" en "Customer Feedback". Ze hebben elk gepaarde tekstvoorbeelden gelabeld als 'chosen' en 'rejected'. Elk paar heeft een unieke 'id', en elke invoer laat een geprefereerde QC-beoordeling zien.
quality_df is een gecombineerde DataFrame die is ingeladen met pandas. Het bevat data uit de drie verschillende databronnen. Daarnaast is de klasse Counter vooraf geïmporteerd uit de module collections.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Tel hoe vaak elk (chosen, rejected)-paar voorkomt in de vote-functie.
- Zoek het (chosen, rejected)-paar met het hoogste aantal stemmen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def majority_vote(df):
# Count occurrences of each (chosen, rejected) pair
votes = ____
# Find the (chosen, rejected) pair with the highest vote count
winner = ____
return winner
final_preferences = quality_df.groupby(['id']).apply(majority_vote)
print(final_preferences)