Identificación de fuentes de datos poco fiables
Tu equipo está desarrollando un modelo para ayudar a generar informes precisos en la industria de seguridad automotriz. Has recopilado datos de preferencias de tres fuentes de datos: un "GlobalDrive Safety Institute", una "AutoTech Safety Alliance" y "QuickScan Auto Review". Últimamente han surgido dudas sobre la integridad de los datos y te han pedido evaluarlos para detectar posibles fuentes poco fiables.
automotive_df es un DataFrame combinado cargado con la biblioteca pandas preimportada. Contiene datos de las tres fuentes. La función majority_vote preimportada crea un objeto tipo diccionario con el par mayoritario (chosen, rejected) por 'id'.
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Define la condición para contabilizar un desacuerdo con el voto mayoritario para una fuente de datos determinada.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
def detect_unreliable_source(merged_df):
df_majority = df.groupby('id').apply(majority_vote)
disagreements = {source: 0 for source in df['source'].unique()}
for _, row in df.iterrows():
# Condition to find a disagreement with majority vote
____
unreliable_source = max(disagreements, key=disagreements.get)
return unreliable_source
disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)