1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 PySpark 进行机器学习

Connected

道练习

组装列

数据准备的最后一步是把所有预测变量列合并为单个列。

已经根据前几个练习的修改进行过更新的 flights 数据,包含以下预测变量列:

  • mon、dom 和 dow
  • carrier_idx(由 carrier 索引得到的值)
  • org_idx(由 org 索引得到的值)
  • km
  • depart
  • duration

注意: 将参数 truncate=False 传给 show() 方法可以避免输出中的数据被截断。

说明

100 XP
  • 导入用于组装预测变量的类。
  • 创建一个 assembler 对象,用于将多个预测变量列合并为一个列。
  • 使用该 assembler 生成新的合并列。