Filtrer des jeux de données pour l’évaluation
Vous mettez en place une chaîne d’entraînement et d’évaluation pour le chatbot de santé de votre entreprise, utilisé par des hôpitaux pour l’accueil des nouveaux patients.
Votre mission est de créer un pipeline pour charger MedQuad-MedicalQnADataset afin d’évaluer un LLM sur sa capacité à répondre à des questions médicales. Vous devez charger le jeu de données dans la variable ds, et n’inclure que les 500 premiers échantillons de la portion train du jeu de données stocké dans dataset_name comme ensemble d’évaluation.
Cet exercice fait partie du cours
Ajustement fin avec Llama 3
Instructions
- Importez les fonctions et classes nécessaires depuis
datasets. - Chargez le jeu de données dans la variable
ds. - Modifiez
dspour n’inclure que les 500 premiers échantillons de la portiontraindu jeu de données stocké dansdataset_namecomme ensemble d’évaluation.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load neccesary imports from library
from datasets import ____, ____
# Load the training split of the dataset
ds = load_dataset(dataset_name, split=____)
# Filter for the first 500 samples of the dataset
filtered_ds = ____