1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn PySpark

Connected

Bài tập

Suy luận và lọc

Hãy tưởng tượng bạn có một bộ dữ liệu điều tra dân số mà bạn biết là có header và schema. Cùng tải bộ dữ liệu đó và để PySpark suy luận (infer) schema. Bạn sẽ thấy gì nếu lọc người lớn trên 40 tuổi?

Nhớ rằng trong không gian làm việc của bạn đã có một SparkSession tên là spark!

Hướng dẫn

100 XP
  • Tải tệp JSON adults.json.
  • Lọc dữ liệu để chỉ giữ những người có age lớn hơn 40.
  • Hiển thị kết quả.