Evaluación del modelo en un conjunto de datos personalizado
En este ejercicio, utilizarás un evaluator del paquete Hugging Face evaluate para evaluar el rendimiento de un modelo preentrenado en un conjunto de datos personalizado. Ten en cuenta que, para la clasificación multiclase con desequilibrios en el conjunto de datos, la precisión no es un indicador de rendimiento fiable. Por lo tanto, utilizarás la capacidad del evaluador para proporcionar múltiples medidas a la vez: la precisión y la recuperación.
Se han predefinido un conjunto de datos (dataset) y un proceso (pipe). La biblioteca evaluate y la clase evaluator también se han importado.
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Instancia un objeto de clase «
evaluator» para tu tarea «"image-classification"». - Extrae la asignación de etiquetas de entero a cadena de la canalización.
- Evalúa el conjunto de datos (
dataset) y el proceso (pipe) utilizando las métricas almacenadas enmetrics_dictylabel_map.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Instantiate the task evaluator
task_evaluator = ____("____")
task_evaluator.METRIC_KWARGS = {"average": "weighted"}
# Get label map from pipeline
label_map = pipe.model.config.____
# Compute the metrics
eval_results = task_evaluator.____(model_or_pipeline=pipe, data=dataset,
metric=evaluate.____(metrics_dict), label_mapping=____)
print(f"Precision: {eval_results['precision']:.2f}, Recall: {eval_results['recall']:.2f}")