1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Nhập môn LLMs trong Python

Connected

Exercises

Tokenize văn bản

Bạn muốn tận dụng một mô hình đã được huấn luyện sẵn từ Hugging Face và fine-tune nó với dữ liệu từ đội ngũ hỗ trợ của công ty để phân loại các tương tác theo rủi ro rời bỏ (churn). Điều này sẽ giúp đội ngũ ưu tiên xử lý việc gì trước và xử lý như thế nào, từ đó chủ động hơn.

Hãy chuẩn bị dữ liệu huấn luyện và kiểm tra cho quá trình fine-tune bằng cách tokenize văn bản.

Các đối tượng AutoTokenizer và AutoModelForSequenceClassification đã được tải sẵn cho bạn.

คำแนะนำ

100 XP
  • Tải mô hình và tokenizer đã được huấn luyện sẵn để chuẩn bị cho việc fine-tune.
  • Tokenize cả train_data["interaction"] và test_data["interaction"], bật padding và cắt ngắn chuỗi (sequence truncation).