cvičení

Tokenizace textového datasetu

Pracuješ na průzkumu trhu pro cestovní web a chceš využít existující dataset k doladění modelu, který ti pomůže klasifikovat hotelové recenze. Rozhodneš se použít knihovnu datasets.

Třída AutoTokenizer je předem naimportována z transformers a funkce load_dataset() je předem naimportována z datasets.

Pokyny

100 XP

Přidej do tokenizeru padding, aby bylo možné zpracovávat text v dávkách stejné velikosti.
Tokenizuj textová data pomocí předtrénovaného GPT tokenizeru a definované funkce.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení