ComeçarComece de graça

Manipulando conjuntos de dados

Em muitas situações, você vai precisar manipular um conjunto de dados antes de usá-lo em uma tarefa de Machine Learning. Duas manipulações comuns são filtrar e selecionar (ou fatiar). Dado o tamanho desses conjuntos, o Hugging Face utiliza arquivos no formato Arrow.

Isso significa que realizar manipulações é um pouco diferente do que você talvez esteja acostumado. Felizmente, já existem métodos que ajudam nisso!

O conjunto de dados já está carregado para você em wikipedia.

Este exercício faz parte do curso

Trabalhando com o Hugging Face

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Filter the documents
____ = wikipedia.____(lambda row: "football" in row["____"])

# Create a sample dataset
example = ____.____(range(1))

print(example[0]["text"])
Editar e executar o código