Votação por maioria em múltiplas fontes de dados
Sua equipe está desenvolvendo um modelo de IA para gerar automaticamente relatórios de controle de qualidade (QC) de smartphones. Para isso, você coletou dados de preferência de três fontes diferentes de QC — um "Automated Vision System", um "Human Inspector" e "Customer Feedback". Cada um deles rotulou pares de amostras de texto como 'chosen' e 'rejected'. Cada par tem um 'id' exclusivo, e cada entrada apresenta uma avaliação de QC preferida.
quality_df é um DataFrame combinado carregado com pandas. Ele contém dados das três fontes diferentes. Além disso, a classe Counter já foi pré-importada do módulo collections.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Conte as ocorrências de cada par (chosen, rejected) na função de voto.
- Encontre o par (chosen, rejected) com a maior contagem de votos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def majority_vote(df):
# Count occurrences of each (chosen, rejected) pair
votes = ____
# Find the (chosen, rejected) pair with the highest vote count
winner = ____
return winner
final_preferences = quality_df.groupby(['id']).apply(majority_vote)
print(final_preferences)