Güvenilmez veri kaynağını belirleme
Ekibin, otomotiv güvenliği sektöründe doğru raporlamayı destekleyen bir model geliştiriyor. Üç veri kaynağından tercih verileri topladın: "GlobalDrive Safety Institute", "AutoTech Safety Alliance" ve "QuickScan Auto Review". Son zamanlarda verinin bütünlüğü hakkında endişeler oluştu ve senden güvenilmez olabilecek veri kaynaklarını tespit etmek için veriyi değerlendirmen istendi.
automotive_df, önceden içe aktarılmış pandas kütüphanesi kullanılarak yüklenmiş birleşik bir DataFrame'dir. Üç kaynaktaki verileri içerir. Önceden içe aktarılmış majority_vote fonksiyonu, her 'id' için çoğunluk (chosen, rejected) çiftini içeren sözlük benzeri bir nesne oluşturur.
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
- Belirli bir veri kaynağı için çoğunluk oylamasıyla bir uyuşmazlığı sayma koşulunu tanımla.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
def detect_unreliable_source(merged_df):
df_majority = df.groupby('id').apply(majority_vote)
disagreements = {source: 0 for source in df['source'].unique()}
for _, row in df.iterrows():
# Condition to find a disagreement with majority vote
____
unreliable_source = max(disagreements, key=disagreements.get)
return unreliable_source
disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)