MulaiMulai sekarang secara gratis

Identifikasi sumber data yang tidak andal

Tim Anda sedang mengembangkan model untuk membantu menghasilkan pelaporan yang akurat di industri keselamatan otomotif. Anda telah mengumpulkan data preferensi dari tiga sumber data — "GlobalDrive Safety Institute," "AutoTech Safety Alliance," dan "QuickScan Auto Review". Baru-baru ini muncul kekhawatiran tentang integritas data, dan Anda diminta menilai apakah ada sumber data yang tidak andal.

automotive_df adalah DataFrame gabungan yang dimuat menggunakan pustaka pandas yang sudah diimpor sebelumnya. Himpunan ini berisi data dari ketiga sumber tersebut. Fungsi majority_vote yang telah diimpor sebelumnya membuat objek mirip kamus dengan pasangan mayoritas (chosen, rejected) per 'id'.

Latihan ini adalah bagian dari kursus

Reinforcement Learning from Human Feedback (RLHF)

Lihat Kursus

Petunjuk latihan

  • Tentukan kondisi untuk menghitung satu ketidaksepakatan dengan hasil suara mayoritas untuk suatu sumber data.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Edit dan Jalankan Kode