LoslegenKostenlos loslegen

Unzuverlässige Datenquelle identifizieren

Dein Team entwickelt ein Modell, das bei der Erstellung präziser Berichte in der Fahrzeugsicherheitsbranche unterstützt. Ihr habt Präferenzdaten aus drei Datenquellen gesammelt – einem "GlobalDrive Safety Institute", einer "AutoTech Safety Alliance" und "QuickScan Auto Review". Kürzlich gab es Bedenken hinsichtlich der Datenintegrität, und du wurdest gebeten, die Daten auf unzuverlässige Quellen zu prüfen.

automotive_df ist ein zusammengeführtes DataFrame, das mit der vorab importierten pandas-Bibliothek geladen wurde. Es enthält Daten aus den drei Quellen. Die vorab importierte Funktion majority_vote erstellt ein wörterbuchähnliches Objekt mit dem Mehrheits‑Paar (chosen, rejected) pro 'id'.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Definiere die Bedingung, um eine Uneinigkeit mit der Mehrheitsentscheidung für eine gegebene Datenquelle zu zählen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Code bearbeiten und ausführen