1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 PySpark 进行机器学习

Connected

道练习

评估决策树

通过检验模型在测试数据上的表现,您可以评估模型质量。由于模型并未在这些数据上训练,这样的评估更客观。

混淆矩阵能清晰展示预测值与真实值的对应关系。它包含 4 个格子,分别统计:

  • 真负(TN)— 模型预测为负,且真实结果为负
  • 真正(TP)— 模型预测为正,且真实结果为正
  • 假负(FN)— 模型预测为负,但真实结果为正
  • 假正(FP)— 模型预测为正,但真实结果为负。

这些计数(TN、TP、FN 和 FP)应当相加等于测试数据中的记录数,它只是航班数据的一个子集。您可以与测试数据的记录数进行对比,即 flights_test.count()。

注意:这些预测是在测试数据上得到的,因此计数会比在训练数据上进行预测时更小。

说明

100 XP
  • 通过统计 label 与 prediction 的组合来创建混淆矩阵,并显示结果。
  • 统计真负、真正、假负和假正的数量。
  • 计算准确率。