1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Huấn luyện mô hình Logistic Regression

Sau khi đã tạo nhãn và đặc trưng cho dữ liệu, bạn đã sẵn sàng xây dựng một mô hình có thể học từ đó (huấn luyện). Nhưng trước khi huấn luyện, ở phần cuối của bài tập này, bạn sẽ chia dữ liệu thành tập huấn luyện và tập kiểm tra, chạy mô hình Logistic Regression trên tập huấn luyện, và cuối cùng kiểm tra độ chính xác của mô hình đã được huấn luyện.

Hãy nhớ rằng bạn đã có sẵn SparkContext sc trong workspace, cùng với biến samples.

Hướng dẫn

100 XP
  • Chia dữ liệu đã kết hợp thành hai tập huấn luyện và kiểm tra theo tỷ lệ 80:20.
  • Huấn luyện mô hình Logistic Regression với tập huấn luyện.
  • Tạo nhãn dự đoán từ mô hình đã huấn luyện trên tập kiểm tra.
  • Ghép các nhãn trong tập kiểm tra với nhãn trong tập dự đoán bằng hàm zip.
  • Tính độ chính xác của mô hình đã huấn luyện bằng nhãn gốc và nhãn dự đoán, rồi in ra.