1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 Hugging Face

Connected

道练习

操作数据集

在进行机器学习任务之前,您很可能需要多次对数据集进行预处理。两种常见操作是过滤和选择(或切片)。考虑到这些数据集的体量,Hugging Face 使用的是 Arrow 文件类型。

这意味着操作方式会与您习惯的略有不同。好在已经有相应的方法可以直接使用!

数据集已为您加载在 wikipedia 中。

说明 1 / 共 2 个

undefined XP
    1
    2
  • 过滤数据集,查找 text 列中包含 "football" 的行,并保存为 filtered。
  • 从过滤后的数据集中选择一个示例,并保存为 example。