CommencerCommencer gratuitement

Manipulation des ensembles de données

Il y aura probablement de nombreuses occasions où vous devrez manipuler un ensemble de données avant de l'utiliser dans une tâche d'apprentissage automatique. Deux manipulations courantes sont le filtrage et la sélection (ou le découpage). Compte tenu de la taille de ces ensembles de données, Hugging Face utilise les types de fichiers arrow.

Cela signifie que les manipulations sont légèrement différentes de celles auxquelles vous êtes habitué. Heureusement, il existe déjà des méthodes pour vous aider !

L'ensemble de données est déjà chargé pour vous sous wikipedia.

Cet exercice fait partie du cours

Travailler avec Hugging Face

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Modifier et exécuter le code