Identificação de fonte de dados não confiável
Sua equipe está desenvolvendo um modelo para ajudar a gerar relatórios precisos na indústria de segurança automotiva. Você coletou dados de preferência de três fontes: "GlobalDrive Safety Institute", "AutoTech Safety Alliance" e "QuickScan Auto Review". Recentemente, surgiram preocupações sobre a integridade dos dados, e pediram para você avaliar se há alguma fonte de dados não confiável.
automotive_df é um DataFrame combinado carregado usando a biblioteca pandas já importada. Ele contém dados das três fontes. A função majority_vote já importada cria um objeto similar a dicionário com o par majoritário (chosen, rejected) por 'id'.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Defina a condição para contar uma divergência em relação ao voto da maioria para uma determinada fonte de dados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def detect_unreliable_source(merged_df):
df_majority = df.groupby('id').apply(majority_vote)
disagreements = {source: 0 for source in df['source'].unique()}
for _, row in df.iterrows():
# Condition to find a disagreement with majority vote
____
unreliable_source = max(disagreements, key=disagreements.get)
return unreliable_source
disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)