1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Huấn luyện mô hình và dự đoán

Sau khi tách dữ liệu thành tập huấn luyện và tập kiểm tra, ở phần hai của bài tập này, bạn sẽ huấn luyện thuật toán ALS bằng dữ liệu huấn luyện. Thuật toán ALS của PySpark MLlib có các tham số bắt buộc sau — rank (số nhân tố ẩn trong mô hình) và iterations (số vòng lặp chạy). Sau khi huấn luyện mô hình ALS, bạn có thể dùng mô hình để dự đoán các đánh giá từ dữ liệu kiểm tra. Để làm điều này, bạn sẽ cung cấp các cột user và item từ tập kiểm tra và cuối cùng trả về danh sách 2 hàng từ đầu ra của predictAll().

Lưu ý, bạn đã có SparkContext sc, training_data và test_data sẵn trong không gian làm việc.

Hướng dẫn

100 XP
  • Huấn luyện thuật toán ALS với dữ liệu huấn luyện và các tham số cấu hình (rank = 10 và iterations = 10).
  • Bỏ cột rating trong dữ liệu kiểm tra, đây là cột thứ ba.
  • Kiểm tra mô hình bằng cách dự đoán rating từ dữ liệu kiểm tra.
  • Trả về danh sách hai hàng của các giá trị dự đoán.