1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în LLM-uri cu Python

Connected

exercițiu

Tokenizarea textului

Vrei să folosești un model pre-antrenat de pe Hugging Face și să îl ajustezi (fine-tuning) cu date de la echipa de suport a companiei, pentru a clasifica interacțiunile în funcție de riscul de churn. Astfel, echipa poate prioritiza mai ușor ce trebuie abordat și cum, adoptând o atitudine mai proactivă.

Pregătește datele de antrenament și de testare pentru fine-tuning prin tokenizarea textului.

AutoTokenizer și AutoModelForSequenceClassification au fost deja importate pentru tine.

Instrucțiuni

100 XP
  • Încarcă modelul pre-antrenat și tokenizer-ul în vederea ajustării (fine-tuning).
  • Tokenizează atât train_data["interaction"], cât și test_data["interaction"], activând padding-ul și trunchierea secvențelor.