1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Introduction to Data Engineering

Connected

Bài tập

Join với ratings

Trong bài tập video, bạn đã thấy cách dùng các phép biến đổi trong PySpark bằng cách join hai bảng film và ratings để tạo một cột mới lưu trữ điểm đánh giá trung bình theo khách hàng. Trong bài tập này, bạn sẽ tạo thêm sự kết hợp giữa bảng film và ratings bằng cách áp dụng cùng kỹ thuật bạn đã học để tính điểm đánh giá trung bình cho từng phim.

PySpark DataFrame chứa danh sách phim, film_df, và PySpark DataFrame chứa đánh giá, rating_df, đã có sẵn trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Lấy mean rating theo film_id, và gán kết quả vào ratings_per_film_df.
  • Hoàn thiện câu lệnh .join() để join trên cột film_id.
  • Hiển thị 5 kết quả đầu tiên của DataFrame thu được.