Mulai sekarangMulai gratis

Identifikasi sumber data yang tidak andal

Tim Anda sedang mengembangkan model untuk membantu menghasilkan pelaporan yang akurat di industri keselamatan otomotif. Anda telah mengumpulkan data preferensi dari tiga sumber data — "GlobalDrive Safety Institute," "AutoTech Safety Alliance," dan "QuickScan Auto Review". Baru-baru ini muncul kekhawatiran tentang integritas data, dan Anda diminta menilai apakah ada sumber data yang tidak andal.

automotive_df adalah DataFrame gabungan yang dimuat menggunakan pustaka pandas yang sudah diimpor sebelumnya. Himpunan ini berisi data dari ketiga sumber tersebut. Fungsi majority_vote yang telah diimpor sebelumnya membuat objek mirip kamus dengan pasangan mayoritas (chosen, rejected) per 'id'.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Instruksi latihan

  • Tentukan kondisi untuk menghitung satu ketidaksepakatan dengan hasil suara mayoritas untuk suatu sumber data.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Edit dan Jalankan Kode