Manipuler des jeux de données
Il y aura probablement de nombreuses situations où vous devrez manipuler un jeu de données avant de l’utiliser dans une tâche de Machine Learning. Deux manipulations courantes sont le filtrage et la sélection (ou découpage). Étant donné la taille de ces jeux de données, Hugging Face s’appuie sur des fichiers de type Arrow.
Cela signifie que les manipulations se font un peu différemment de ce dont vous avez l’habitude. Heureusement, il existe déjà des méthodes pour vous aider !
Le jeu de données est déjà chargé pour vous sous wikipedia.
Cet exercice fait partie du cours
Travailler avec Hugging Face
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])