IniziaInizia gratis

Filtrare gli insiemi di dati per la valutazione

Stai costruendo una pipeline di training e valutazione per il chatbot sanitario della tua azienda, utilizzato dagli ospedali per l’onboarding dei nuovi pazienti.

Il tuo compito è creare una pipeline per caricare MedQuad-MedicalQnADataset e valutare un LLM sulla sua capacità di rispondere a domande mediche. Ti viene chiesto di caricare l’insieme di dati nella variabile ds e includere solo i primi 500 campioni dello split train dell’insieme di dati memorizzato in dataset_name come set di valutazione.

Questo esercizio fa parte del corso

Fine-tuning con Llama 3

Visualizza il corso

Istruzioni dell'esercizio

  • Importa le funzioni e le classi necessarie da datasets.
  • Carica l’insieme di dati nella variabile ds.
  • Modifica ds per includere i primi 500 campioni dello split train dell’insieme di dati memorizzato in dataset_name come set di valutazione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load neccesary imports from library
from datasets import ____, ____

# Load the training split of the dataset
ds = load_dataset(dataset_name, split=____)

# Filter for the first 500 samples of the dataset
filtered_ds = ____
Modifica ed esegui il codice