1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Tải dữ liệu điều tra dân số

Hãy bắt đầu tạo PySpark DataFrame đầu tiên của bạn! Tệp adult_reduced.csv chứa các nhóm người trưởng thành dựa trên nhiều danh mục nhân khẩu học. Dữ liệu này được điều chỉnh từ US Census. Tổng cộng có 32562 nhóm người trưởng thành.

Chúng ta sẽ tải tệp CSV và xem schema thu được.

Từ điển dữ liệu:

Biến Mô tả
age Tuổi của cá nhân
education_num Trình độ học vấn theo bằng
marital_status Tình trạng hôn nhân
occupation Nghề nghiệp
income Thu nhập dạng phân loại

Hướng dẫn

100 XP
  • Tạo một PySpark DataFrame từ tệp "adult_reduced.csv" bằng phương thức spark.read.csv().
  • Hiển thị DataFrame thu được.