CommencerCommencez gratuitement

Manipuler des jeux de données

Il y aura probablement de nombreuses situations où vous devrez manipuler un jeu de données avant de l’utiliser dans une tâche de Machine Learning. Deux manipulations courantes sont le filtrage et la sélection (ou le slicing). Étant donné la taille de ces jeux de données, Hugging Face s’appuie sur des fichiers de type Arrow.

Cela signifie que les manipulations se font un peu différemment de ce dont vous avez l’habitude. Heureusement, des méthodes existent déjà pour vous aider !

Le jeu de données est déjà chargé sous le nom wikipedia.

Cet exercice fait partie du cours

<cours>Travailler avec Hugging Face</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Modifier et exécuter le code