Manipulando conjuntos de dados
Provavelmente, você vai precisar mexer num conjunto de dados antes de usar numa tarefa de ML. Duas coisas que a gente costuma fazer são filtrar e selecionar (ou cortar). Dado o tamanho desses conjuntos de dados, o Hugging Face usa tipos de arquivos arrow.
Isso quer dizer que as manipulações são um pouco diferentes do que você está acostumado. Felizmente, já existem métodos para ajudar com isso!
O conjunto de dados já está carregado para você em wikipedia.
Este exercício faz parte do curso
Trabalhando com o Hugging Face
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])