exercițiu

Tokenizarea textului

În acest exercițiu, vei folosi setul de date flickr, care conține 30.000 de imagini și descrieri asociate, pentru a efectua operații de preprocesare pe text. Acest pas este necesar pentru ca modelele să poată realiza sarcini precum clasificarea textului. Este deosebit de util în aplicațiile multi-modale, unde modelele Hugging Face pot verifica dacă o descriere este potrivită pentru imaginea asociată.

Setul de date (dataset) a fost încărcat, iar AutoTokenizer a fost importat.

Instrucțiuni 1/2

undefined XP

1

2

Încarcă prima "caption" din imaginea de la indexul 5 al setului de date dataset.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni 1/2

exercițiu