Manipulation des ensembles de données
Il y aura probablement de nombreuses occasions où vous devrez manipuler un ensemble de données avant de l'utiliser dans une tâche d'apprentissage automatique. Deux manipulations courantes sont le filtrage et la sélection (ou le découpage). Compte tenu de la taille de ces ensembles de données, Hugging Face utilise les types de fichiers arrow.
Cela signifie que les manipulations sont légèrement différentes de celles auxquelles vous êtes habitué. Heureusement, il existe déjà des méthodes pour vous aider !
L'ensemble de données est déjà chargé pour vous sous wikipedia
.
Cet exercice fait partie du cours
Travailler avec Hugging Face
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])