Onbetrouwbare gegevensbron identificeren
Je team ontwikkelt een model om te helpen bij het genereren van nauwkeurige rapportages in de auto-veiligheidsindustrie. Je hebt voorkeursdata verzameld uit drie gegevensbronnen: een "GlobalDrive Safety Institute", een "AutoTech Safety Alliance" en "QuickScan Auto Review". Onlangs zijn er zorgen ontstaan over de integriteit van de data, en je bent gevraagd om te beoordelen of er onbetrouwbare gegevensbronnen zijn.
automotive_df is een gecombineerde DataFrame die is geladen met de voorgeïmporteerde pandas-bibliotheek. Het bevat data van de drie bronnen. De voorgeïmporteerde functie majority_vote maakt een dictionary-achtig object met het meerderheidspaar (chosen, rejected) per 'id'.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Definieer de voorwaarde om één onenigheid met de meerderheidstem te tellen voor een gegeven gegevensbron.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def detect_unreliable_source(merged_df):
df_majority = df.groupby('id').apply(majority_vote)
disagreements = {source: 0 for source in df['source'].unique()}
for _, row in df.iterrows():
# Condition to find a disagreement with majority vote
____
unreliable_source = max(disagreements, key=disagreements.get)
return unreliable_source
disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)