CommencerCommencer gratuitement

Vote majoritaire sur plusieurs sources de données

Votre équipe développe un modèle d’IA pour générer automatiquement des rapports de contrôle qualité (QC) de smartphones. Pour cela, vous avez collecté des données de préférence provenant de trois sources de contrôle qualité : un « Automated Vision System », un « Human Inspector » et des « Customer Feedback ». Chacune a étiqueté des paires d’exemples de texte comme « chosen » et « rejected ». Chaque paire possède un « id » unique, et chaque entrée met en avant un avis QC préféré.

quality_df est un DataFrame combiné chargé avec pandas. Il contient les données issues des trois sources différentes. De plus, la classe Counter a déjà été importée depuis le module collections.

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Instructions

  • Comptez les occurrences de chaque paire (chosen, rejected) dans la fonction de vote.
  • Trouvez la paire (chosen, rejected) ayant le plus grand nombre de votes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def majority_vote(df):
  	# Count occurrences of each (chosen, rejected) pair
    votes = ____
    # Find the (chosen, rejected) pair with the highest vote count
    winner = ____
    return winner

final_preferences = quality_df.groupby(['id']).apply(majority_vote)

print(final_preferences)
Modifier et exécuter le code