Filtrare gli insiemi di dati per la valutazione
Stai costruendo una pipeline di training e valutazione per il chatbot sanitario della tua azienda, utilizzato dagli ospedali per l’onboarding dei nuovi pazienti.
Il tuo compito è creare una pipeline per caricare MedQuad-MedicalQnADataset e valutare un LLM sulla sua capacità di rispondere a domande mediche. Ti viene chiesto di caricare l’insieme di dati nella variabile ds e includere solo i primi 500 campioni dello split train dell’insieme di dati memorizzato in dataset_name come set di valutazione.
Questo esercizio fa parte del corso
Fine-tuning con Llama 3
Istruzioni dell'esercizio
- Importa le funzioni e le classi necessarie da
datasets. - Carica l’insieme di dati nella variabile
ds. - Modifica
dsper includere i primi 500 campioni dello splittraindell’insieme di dati memorizzato indataset_namecome set di valutazione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load neccesary imports from library
from datasets import ____, ____
# Load the training split of the dataset
ds = load_dataset(dataset_name, split=____)
# Filter for the first 500 samples of the dataset
filtered_ds = ____