Manipulação de conjuntos de dados
Provavelmente, haverá muitas ocasiões em que você precisará manipular um conjunto de dados antes de usá-lo em uma tarefa do ML. Duas manipulações comuns são a filtragem e a seleção (ou corte). Devido ao tamanho desses conjuntos de dados, o Hugging Face aproveita os tipos de arquivo de seta.
Isso significa que a realização de manipulações é ligeiramente diferente do que você está acostumado a fazer. Felizmente, já existem métodos para ajudar você com isso!
O conjunto de dados já está carregado para você em wikipedia
.
Este exercício faz parte do curso
Trabalhando com o Hugging Face
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])
# Create a sample dataset
example = ____.____(range(1))
print(example[0]["text"])