1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Tổng hợp mọi thứ I

Bạn đã xây dựng nền tảng vững chắc về PySpark, khám phá các thành phần cốt lõi và thực hành với Spark SQL, DataFrame, cùng các thao tác nâng cao. Giờ là lúc gắn kết tất cả lại. Trong hai bài tập tiếp theo, bạn sẽ tạo một SparkSession, một DataFrame, cache DataFrame đó, thực hiện phân tích và giải thích kết quả!

Hướng dẫn

100 XP
  • Import SparkSession từ pyspark.sql.
  • Tạo một SparkSession mới tên là final_spark bằng SparkSession.builder.getOrCreate().
  • In my_spark ra console để xác nhận đó là một SparkSession.
  • Tạo một DataFrame mới từ schema và định nghĩa cột đã được nạp sẵn.