Manipulando conjuntos de dados
Em muitas situações, você vai precisar manipular um conjunto de dados antes de usá-lo em uma tarefa de Machine Learning. Duas manipulações comuns são filtrar e selecionar (ou fatiar). Dado o tamanho desses conjuntos, o Hugging Face utiliza arquivos no formato Arrow.
Isso significa que realizar manipulações é um pouco diferente do que você talvez esteja acostumado. Felizmente, já existem métodos que ajudam nisso!
O conjunto de dados já está carregado para você em wikipedia.
Este exercício faz parte do curso
Trabalhando com o Hugging Face
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])