CommencerCommencer gratuitement

Filtrer des jeux de données pour l’évaluation

Vous mettez en place une chaîne d’entraînement et d’évaluation pour le chatbot de santé de votre entreprise, utilisé par des hôpitaux pour l’accueil des nouveaux patients.

Votre mission est de créer un pipeline pour charger MedQuad-MedicalQnADataset afin d’évaluer un LLM sur sa capacité à répondre à des questions médicales. Vous devez charger le jeu de données dans la variable ds, et n’inclure que les 500 premiers échantillons de la portion train du jeu de données stocké dans dataset_name comme ensemble d’évaluation.

Cet exercice fait partie du cours

Ajustement fin avec Llama 3

Afficher le cours

Instructions

  • Importez les fonctions et classes nécessaires depuis datasets.
  • Chargez le jeu de données dans la variable ds.
  • Modifiez ds pour n’inclure que les 500 premiers échantillons de la portion train du jeu de données stocké dans dataset_name comme ensemble d’évaluation.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load neccesary imports from library
from datasets import ____, ____

# Load the training split of the dataset
ds = load_dataset(dataset_name, split=____)

# Filter for the first 500 samples of the dataset
filtered_ds = ____
Modifier et exécuter le code