Vote majoritaire sur plusieurs sources de données
Votre équipe développe un modèle d’IA pour générer automatiquement des rapports de contrôle qualité (QC) de smartphones. Pour cela, vous avez collecté des données de préférence provenant de trois sources de contrôle qualité : un « Automated Vision System », un « Human Inspector » et des « Customer Feedback ». Chacune a étiqueté des paires d’exemples de texte comme « chosen » et « rejected ». Chaque paire possède un « id » unique, et chaque entrée met en avant un avis QC préféré.
quality_df est un DataFrame combiné chargé avec pandas. Il contient les données issues des trois sources différentes. De plus, la classe Counter a déjà été importée depuis le module collections.
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Comptez les occurrences de chaque paire (chosen, rejected) dans la fonction de vote.
- Trouvez la paire (chosen, rejected) ayant le plus grand nombre de votes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def majority_vote(df):
# Count occurrences of each (chosen, rejected) pair
votes = ____
# Find the (chosen, rejected) pair with the highest vote count
winner = ____
return winner
final_preferences = quality_df.groupby(['id']).apply(majority_vote)
print(final_preferences)