Aan de slagGa gratis aan de slag

Meerderheidsstemming over meerdere databronnen

Je team ontwikkelt een AI-model dat automatisch kwaliteitscontrole- (QC) rapporten voor smartphones genereert. Hiervoor heb je voorkeurdata verzameld uit drie verschillende QC-bronnen: een "Automated Vision System", een "Human Inspector" en "Customer Feedback". Ze hebben elk gepaarde tekstvoorbeelden gelabeld als 'chosen' en 'rejected'. Elk paar heeft een unieke 'id', en elke invoer laat een geprefereerde QC-beoordeling zien.

quality_df is een gecombineerde DataFrame die is ingeladen met pandas. Het bevat data uit de drie verschillende databronnen. Daarnaast is de klasse Counter vooraf geïmporteerd uit de module collections.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Tel hoe vaak elk (chosen, rejected)-paar voorkomt in de vote-functie.
  • Zoek het (chosen, rejected)-paar met het hoogste aantal stemmen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def majority_vote(df):
  	# Count occurrences of each (chosen, rejected) pair
    votes = ____
    # Find the (chosen, rejected) pair with the highest vote count
    winner = ____
    return winner

final_preferences = quality_df.groupby(['id']).apply(majority_vote)

print(final_preferences)
Code bewerken en uitvoeren