1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的 LLM 入门

Connected

道练习

映射分词

现在,您希望对分词过程有更多控制,并尝试按行或按批次进行分词。这样还能得到一个 DataSet 对象,这是后续训练所需的。

tokenizer 已为您加载,数据分别为 train_data 和 test_data。

说明 1/2

undefined XP
  • 1
    • 完成 tokenize_function,返回带有序列截断的分词张量,并对 train_data 进行按批次分词。
  • 2
    • 将 tokenize_function 应用于 train_data,并按行逐条分词。