Gegevenssets filteren voor evaluatie
Je bouwt een trainings- en evaluatiepijplijn voor de chatbot van je bedrijf in de zorg, die ziekenhuizen gebruiken om nieuwe patiënten te onboarden.
Jouw taak is om een pijplijn te maken die MedQuad-MedicalQnADataset laadt om een LLM te evalueren op het beantwoorden van medische vragen. Je wordt gevraagd de gegevensset te laden in de variabele ds, en alleen de eerste 500 voorbeelden van de train-split van de gegevensset die is opgeslagen in dataset_name op te nemen als je evaluatieset.
Deze oefening maakt deel uit van de cursus
Fijn-afstemmen met Llama 3
Oefeninstructies
- Importeer de benodigde functies en klassen uit
datasets. - Laad de gegevensset in de variabele
ds. - Bewerk
dszodat het alleen de eerste 500 voorbeelden van detrain-split van de indataset_nameopgeslagen gegevensset bevat als je evaluatieset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load neccesary imports from library
from datasets import ____, ____
# Load the training split of the dataset
ds = load_dataset(dataset_name, split=____)
# Filter for the first 500 samples of the dataset
filtered_ds = ____