1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do LLMs v Pythonu

Connected

cvičení

Mapování tokenizace

Teď si vyzkoušíš, jak mít větší kontrolu nad tokenizací, a zkusíš tokenizovat data po řádcích nebo dávkách. Výsledkem bude objekt DataSet, který budeš potřebovat pro trénování.

tokenizer je už načtený spolu s daty jako train_data a test_data.

Instrukce 1/2

undefined XP
  • 1
    • Dokonči funkci tokenize_function tak, aby vracela tokenizované tensory s ořezáváním sekvencí, a tokenizuj train_data dávkově.
  • 2
    • Aplikuj tokenize_function na train_data a tokenizuj data po jednotlivých řádcích.