1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Viết schema

Chúng ta đã nạp Schema theo nhiều cách. Giờ hãy định nghĩa trực tiếp một schema. Ta sẽ dùng một Từ điển dữ liệu:

Variable Description
age Tuổi của cá nhân
education_num Trình độ theo bậc học
marital_status Tình trạng hôn nhân
occupation Nghề nghiệp
income Thu nhập phân loại

Hướng dẫn

100 XP
  • Chỉ định schema dữ liệu với các tên cột (age, education_num, marital_status, occupation và income) và kiểu cột, đồng thời đặt dấu phẩy cho tham số sep=.
  • Đọc dữ liệu từ tệp phân tách bằng dấu phẩy có tên adult_reduced_100.csv.
  • In schema của DataFrame thu được.