Identifikasi sumber data yang tidak andal
Tim Anda sedang mengembangkan model untuk membantu menghasilkan pelaporan yang akurat di industri keselamatan otomotif. Anda telah mengumpulkan data preferensi dari tiga sumber data — "GlobalDrive Safety Institute," "AutoTech Safety Alliance," dan "QuickScan Auto Review". Baru-baru ini muncul kekhawatiran tentang integritas data, dan Anda diminta menilai apakah ada sumber data yang tidak andal.
automotive_df adalah DataFrame gabungan yang dimuat menggunakan pustaka pandas yang sudah diimpor sebelumnya. Himpunan ini berisi data dari ketiga sumber tersebut. Fungsi majority_vote yang telah diimpor sebelumnya membuat objek mirip kamus dengan pasangan mayoritas (chosen, rejected) per 'id'.
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Petunjuk latihan
- Tentukan kondisi untuk menghitung satu ketidaksepakatan dengan hasil suara mayoritas untuk suatu sumber data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def detect_unreliable_source(merged_df):
df_majority = df.groupby('id').apply(majority_vote)
disagreements = {source: 0 for source in df['source'].unique()}
for _, row in df.iterrows():
# Condition to find a disagreement with majority vote
____
unreliable_source = max(disagreements, key=disagreements.get)
return unreliable_source
disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)