1. Learn
  2. /
  3. 课程
  4. /
  5. PySpark 入门

Connected

道练习

加载人口普查数据

让我们开始创建您的第一个 PySpark DataFrame!文件 adult_reduced.csv 按多种人口统计类别对成年样本进行了分组。这些数据改编自美国人口普查。共包含 32,562 个成年分组。

我们将加载该 CSV,并查看生成的模式(schema)。

数据字典:

Variable Description
age 个体年龄
education_num 受教育年限(按学位)
marital_status 婚姻状况
occupation 职业
income 收入类别

说明

100 XP
  • 使用 spark.read.csv() 方法,从 "adult_reduced.csv" 文件创建一个 PySpark DataFrame。
  • 展示生成的 DataFrame。