1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do LLMs v Pythonu

Connected

cvičení

Tokenizace textu

Chceš využít předtrénovaný model z Hugging Face a doladit ho pomocí dat od týmu zákaznické podpory ve tvé firmě, aby mohl klasifikovat interakce podle rizika odchodu zákazníků. To pomůže týmu lépe určit priority – co řešit jako první a jak k tomu přistoupit – a být tak více proaktivní.

Připrav trénovací a testovací data pro fine-tuning tokenizací textu.

AutoTokenizer a AutoModelForSequenceClassification jsou již načtené.

Pokyny

100 XP
  • Načti předtrénovaný model a tokenizér jako přípravu na fine-tuning.
  • Tokenizuj train_data["interaction"] i test_data["interaction"] a povol padding a zkracování sekvencí.