ComeçarComece de graça

Identificação de fonte de dados não confiável

Sua equipe está desenvolvendo um modelo para ajudar a gerar relatórios precisos na indústria de segurança automotiva. Você coletou dados de preferência de três fontes: "GlobalDrive Safety Institute", "AutoTech Safety Alliance" e "QuickScan Auto Review". Recentemente, surgiram preocupações sobre a integridade dos dados, e pediram para você avaliar se há alguma fonte de dados não confiável.

automotive_df é um DataFrame combinado carregado usando a biblioteca pandas já importada. Ele contém dados das três fontes. A função majority_vote já importada cria um objeto similar a dicionário com o par majoritário (chosen, rejected) por 'id'.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Defina a condição para contar uma divergência em relação ao voto da maioria para uma determinada fonte de dados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Editar e executar o código