ComenzarEmpieza gratis

Identificación de fuentes de datos poco fiables

Tu equipo está desarrollando un modelo para ayudar a generar informes precisos en la industria de seguridad automotriz. Has recopilado datos de preferencias de tres fuentes de datos: un "GlobalDrive Safety Institute", una "AutoTech Safety Alliance" y "QuickScan Auto Review". Últimamente han surgido dudas sobre la integridad de los datos y te han pedido evaluarlos para detectar posibles fuentes poco fiables.

automotive_df es un DataFrame combinado cargado con la biblioteca pandas preimportada. Contiene datos de las tres fuentes. La función majority_vote preimportada crea un objeto tipo diccionario con el par mayoritario (chosen, rejected) por 'id'.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Define la condición para contabilizar un desacuerdo con el voto mayoritario para una fuente de datos determinada.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

def detect_unreliable_source(merged_df):
    df_majority = df.groupby('id').apply(majority_vote)
    disagreements = {source: 0 for source in df['source'].unique()}
    for _, row in df.iterrows():
        # Condition to find a disagreement with majority vote
        ____
    unreliable_source = max(disagreements, key=disagreements.get)
    return unreliable_source

disagreement = detect_unreliable_source(automotive_df)
print("Unreliable Source:", disagreement)
Editar y ejecutar código