ComeçarComece de graça

Manipulando conjuntos de dados

Em muitas situações, você vai precisar manipular um conjunto de dados antes de usá-lo em uma tarefa de Machine Learning. Duas manipulações comuns são filtrar e selecionar (ou fatiar). Dado o tamanho desses conjuntos, o Hugging Face utiliza arquivos no formato Arrow.

Isso significa que realizar manipulações é um pouco diferente do que você talvez esteja acostumado. Felizmente, já existem métodos que ajudam nisso!

O conjunto de dados já está carregado para você em wikipedia.

Este exercício faz parte do curso

Trabalhando com Hugging Face

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Editar e executar o código