LoslegenKostenlos starten

Unzuverlässige Datenquelle identifizieren

Dein Team entwickelt ein Modell, das bei der Erstellung präziser Berichte in der Fahrzeugsicherheitsbranche unterstützt. Ihr habt Präferenzdaten aus drei Datenquellen gesammelt – einem "GlobalDrive Safety Institute", einer "AutoTech Safety Alliance" und "QuickScan Auto Review". Kürzlich gab es Bedenken hinsichtlich der Datenintegrität, und du wurdest gebeten, die Daten auf unzuverlässige Quellen zu prüfen.

automotive_df ist ein zusammengeführtes DataFrame, das mit der vorab importierten pandas-Bibliothek geladen wurde. Es enthält Daten aus den drei Quellen. Die vorab importierte Funktion majority_vote erstellt ein wörterbuchähnliches Objekt mit dem Mehrheits‑Paar (chosen, rejected) pro 'id'.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>
Kurs ansehen

Übungsanweisungen

  • Definiere die Bedingung, um eine Uneinigkeit mit der Mehrheitsentscheidung für eine gegebene Datenquelle zu zählen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Code bearbeiten und ausführen