ComeçarComece de graça

Tokenização de texto

Neste exercício, você vai usar o conjunto de dados do Flickr, que tem 30.000 imagens e legendas, para fazer um pré-processamento do texto. Isso é necessário para ser usado por modelos em tarefas como classificação de texto. Isso é super útil pra aplicações multimodais, onde os modelos Hugging Face podem ser usados pra conferir se as legendas estão certas pra uma imagem associada.

O conjunto de dados (dataset) foi carregado e o AutoTokenizer foi importado.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)
Editar e executar o código