Filtrado de conjuntos de datos para la evaluación
Estás construyendo una canalización de entrenamiento y evaluación para el chatbot de atención sanitaria de tu empresa, que los hospitales usan para registrar a nuevos pacientes.
Tu tarea es crear una canalización para cargar MedQuad-MedicalQnADataset y evaluar un LLM en su capacidad para responder preguntas médicas. Se te pide cargar el conjunto de datos en la variable ds e incluir solo las primeras 500 muestras de la partición train del conjunto de datos almacenado en dataset_name como tu conjunto de evaluación.
Este ejercicio forma parte del curso
Ajuste fino con Llama 3
Instrucciones del ejercicio
- Importa las funciones y clases necesarias de
datasets. - Carga el conjunto de datos en la variable
ds. - Modifica
dspara incluir las primeras 500 muestras de la particióntraindel conjunto de datos almacenado endataset_namecomo tu conjunto de evaluación.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load neccesary imports from library
from datasets import ____, ____
# Load the training split of the dataset
ds = load_dataset(dataset_name, split=____)
# Filter for the first 500 samples of the dataset
filtered_ds = ____