IniziaInizia gratis

Identificazione di fonti di dati inaffidabili

Il tuo team sta sviluppando un modello per supportare la generazione di report accurati nel settore della sicurezza automobilistica. Hai raccolto dati di preferenza da tre fonti: un "GlobalDrive Safety Institute", un'"AutoTech Safety Alliance" e "QuickScan Auto Review". Di recente sono emerse preoccupazioni sull'integrità dei dati e ti è stato chiesto di valutarli per individuare eventuali fonti di dati inaffidabili.

automotive_df è un DataFrame combinato caricato usando la libreria pandas preimportata. Contiene i dati delle tre fonti. La funzione majority_vote preimportata crea un oggetto simile a un dizionario con la coppia di maggioranza (chosen, rejected) per 'id'.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza il corso

Istruzioni dell'esercizio

  • Definisci la condizione per contare un disaccordo con il voto di maggioranza per una data fonte di dati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Modifica ed esegui il codice