ćwiczenie

Tokenizacja tekstu

W tym ćwiczeniu użyjesz zbioru danych flickr, który zawiera 30 000 obrazów wraz z powiązanymi podpisami, aby wykonać operacje przetwarzania wstępnego na tekście. Jest to konieczne, by dane mogły być wykorzystywane przez modele do zadań takich jak klasyfikacja tekstu. Szczególnie przydaje się to w aplikacjach multimodalnych, gdzie modele Hugging Face mogą sprawdzać, czy podpis pasuje do danego obrazu.

Zbiór danych (dataset) został wczytany, a klasa AutoTokenizer zaimportowana.

Instrukcje 1/2

undefined XP

1

2

Wczytaj pierwszy podpis ("caption") do obrazu znajdującego się pod indeksem 5 w zbiorze dataset.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie