CommencerCommencer gratuitement

Identifier une source de données peu fiable

Votre équipe développe un modèle pour aider à produire des rapports fiables dans le secteur de la sécurité automobile. Vous avez collecté des données de préférences auprès de trois sources : « GlobalDrive Safety Institute », « AutoTech Safety Alliance » et « QuickScan Auto Review ». Récemment, des doutes ont émergé quant à lʼintégrité des données, et lʼon vous a demandé dʼévaluer la présence éventuelle de sources de données peu fiables.

automotive_df est un DataFrame combiné chargé à lʼaide de la bibliothèque pandas préimportée. Il contient les données des trois sources. La fonction majority_vote préimportée crée un objet de type dictionnaire contenant la paire majoritaire (chosen, rejected) par 'id'.

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Instructions

  • Définissez la condition permettant de compter une divergence avec le vote majoritaire pour une source de données donnée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Modifier et exécuter le code