CommencerCommencer gratuitement

Manipuler des jeux de données

Il y aura probablement de nombreuses situations où vous devrez manipuler un jeu de données avant de l’utiliser dans une tâche de Machine Learning. Deux manipulations courantes sont le filtrage et la sélection (ou découpage). Étant donné la taille de ces jeux de données, Hugging Face s’appuie sur des fichiers de type Arrow.

Cela signifie que les manipulations se font un peu différemment de ce dont vous avez l’habitude. Heureusement, il existe déjà des méthodes pour vous aider !

Le jeu de données est déjà chargé pour vous sous wikipedia.

Cet exercice fait partie du cours

Travailler avec Hugging Face

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Modifier et exécuter le code