Aan de slagGa gratis aan de slag

Gegevenssets filteren voor evaluatie

Je bouwt een trainings- en evaluatiepijplijn voor de chatbot van je bedrijf in de zorg, die ziekenhuizen gebruiken om nieuwe patiënten te onboarden.

Jouw taak is om een pijplijn te maken die MedQuad-MedicalQnADataset laadt om een LLM te evalueren op het beantwoorden van medische vragen. Je wordt gevraagd de gegevensset te laden in de variabele ds, en alleen de eerste 500 voorbeelden van de train-split van de gegevensset die is opgeslagen in dataset_name op te nemen als je evaluatieset.

Deze oefening maakt deel uit van de cursus

Fijn-afstemmen met Llama 3

Cursus bekijken

Oefeninstructies

  • Importeer de benodigde functies en klassen uit datasets.
  • Laad de gegevensset in de variabele ds.
  • Bewerk ds zodat het alleen de eerste 500 voorbeelden van de train-split van de in dataset_name opgeslagen gegevensset bevat als je evaluatieset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load neccesary imports from library
from datasets import ____, ____

# Load the training split of the dataset
ds = load_dataset(dataset_name, split=____)

# Filter for the first 500 samples of the dataset
filtered_ds = ____
Code bewerken en uitvoeren