1. Learn
  2. /
  3. Courses
  4. /
  5. 使用 PySpark 进行机器学习

Connected

Exercise

训练/测试集划分

要客观评估机器学习模型,您需要在独立的数据集上进行测试。不能用与训练模型相同的数据进行测试:模型在这些数据上当然会(相对)表现良好!

您将把数据拆分为两个部分:

  • 训练数据(用于训练模型),以及
  • 测试数据(用于测试模型)。

注意: 从现在开始,您将使用航班数据的一个较小子集,以加快练习的运行速度。

Instructions

100 XP
  • 将 flights 数据按 80:20 的比例随机划分为两个集合。为确保可复现性,请将划分的随机数种子设为 43。
  • 检查训练数据是否大约包含原始数据 80% 的记录。