Unzuverlässige Datenquelle identifizieren
Dein Team entwickelt ein Modell, das bei der Erstellung präziser Berichte in der Fahrzeugsicherheitsbranche unterstützt. Ihr habt Präferenzdaten aus drei Datenquellen gesammelt – einem "GlobalDrive Safety Institute", einer "AutoTech Safety Alliance" und "QuickScan Auto Review". Kürzlich gab es Bedenken hinsichtlich der Datenintegrität, und du wurdest gebeten, die Daten auf unzuverlässige Quellen zu prüfen.
automotive_df ist ein zusammengeführtes DataFrame, das mit der vorab importierten pandas-Bibliothek geladen wurde. Es enthält Daten aus den drei Quellen. Die vorab importierte Funktion majority_vote erstellt ein wörterbuchähnliches Objekt mit dem Mehrheits‑Paar (chosen, rejected) pro 'id'.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Definiere die Bedingung, um eine Uneinigkeit mit der Mehrheitsentscheidung für eine gegebene Datenquelle zu zählen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
def detect_unreliable_source(merged_df):
df_majority = df.groupby('id').apply(majority_vote)
disagreements = {source: 0 for source in df['source'].unique()}
for _, row in df.iterrows():
# Condition to find a disagreement with majority vote
____
unreliable_source = max(disagreements, key=disagreements.get)
return unreliable_source
disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)