Aan de slagGa gratis aan de slag

Onbetrouwbare gegevensbron identificeren

Je team ontwikkelt een model om te helpen bij het genereren van nauwkeurige rapportages in de auto-veiligheidsindustrie. Je hebt voorkeursdata verzameld uit drie gegevensbronnen: een "GlobalDrive Safety Institute", een "AutoTech Safety Alliance" en "QuickScan Auto Review". Onlangs zijn er zorgen ontstaan over de integriteit van de data, en je bent gevraagd om te beoordelen of er onbetrouwbare gegevensbronnen zijn.

automotive_df is een gecombineerde DataFrame die is geladen met de voorgeïmporteerde pandas-bibliotheek. Het bevat data van de drie bronnen. De voorgeïmporteerde functie majority_vote maakt een dictionary-achtig object met het meerderheidspaar (chosen, rejected) per 'id'.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Definieer de voorwaarde om één onenigheid met de meerderheidstem te tellen voor een gegeven gegevensbron.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Code bewerken en uitvoeren