ćwiczenie

Tokenizacja zbioru danych tekstowych

Pracujesz nad badaniem rynku dla serwisu turystycznego i chcesz wykorzystać istniejący zbiór danych do dostrojenia modelu klasyfikującego recenzje hoteli. W tym celu używasz biblioteki datasets.

Klasa AutoTokenizer została wcześniej zaimportowana z transformers, a funkcja load_dataset() – z datasets.

Instrukcje

100 XP

Dodaj dopełnienie (padding) do tokenizatora, aby przetwarzać tekst w partiach o jednakowym rozmiarze.
Stokenizuj dane tekstowe, używając wstępnie wytrenowanego tokenizatora GPT i zdefiniowanej funkcji.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie