1. Learn
  2. /
  3. 课程
  4. /
  5. PySpark 入门

Connected

道练习

编写 Schema

我们已经用多种方式加载过 Schema。现在请直接定义一个 schema。我们将使用一个 数据字典:

变量 说明
age 个体年龄
education_num 受教育年限(按学历换算)
marital_status 婚姻状况
occupation 职业
income 收入类别

说明

100 XP
  • 指定数据 schema,给出列名(age、education_num、marital_status、occupation 和 income)及其列类型,并为 sep= 参数设置逗号分隔。
  • 从名为 adult_reduced_100.csv 的逗号分隔文件读取数据。
  • 打印结果 DataFrame 的 schema。