Comece agoraComece grátis

Tokenização de texto

Neste exercício, você vai usar o conjunto de dados do Flickr, que tem 30.000 imagens e legendas, para fazer um pré-processamento do texto. Isso é necessário para ser usado por modelos em tarefas como classificação de texto. Isso é super útil pra aplicações multimodais, onde os modelos Hugging Face podem ser usados pra conferir se as legendas estão certas pra uma imagem associada.

O conjunto de dados (dataset) foi carregado e o AutoTokenizer foi importado.

Este exercicio faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Load the first caption from the image at index 5
text = dataset[5]["____"][0]
print(text)
Editar e Executar Código