1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

Tải dữ liệu spam và không spam

Logistic Regression là một phương pháp phổ biến để dự đoán phản hồi phân loại. Có lẽ một trong những ứng dụng thường gặp nhất của logistic regression là phân loại tin nhắn hoặc email spam. Trong bài tập gồm 3 phần này, bạn sẽ tạo một bộ phân loại email spam với logistic regression dùng Spark MLlib. Dưới đây là các bước tóm tắt để tạo một bộ phân loại spam.

  • Tạo một RDD các chuỗi đại diện cho email.
  • Chạy các thuật toán trích xuất đặc trưng của MLlib để chuyển văn bản thành một RDD các vector.
  • Gọi một thuật toán phân loại trên RDD các vector để trả về một đối tượng mô hình dùng phân loại các điểm mới.
  • Đánh giá mô hình trên một bộ dữ liệu kiểm tra bằng một trong các hàm đánh giá của MLlib.

Trong phần đầu của bài tập, bạn sẽ tải các tệp 'spam' và 'ham' (không spam) vào các RDD, tách email thành từng từ, và xem phần tử đầu tiên trong mỗi RDD.

Lưu ý, bạn có sẵn SparkContext sc trong không gian làm việc. Biến file_path_spam (đường dẫn đến tệp 'spam') và file_path_non_spam (đường dẫn đến tệp 'non-spam') cũng đã có sẵn trong không gian làm việc của bạn.

Hướng dẫn

100 XP
  • Tạo hai RDD, một cho 'spam' và một cho 'non-spam (ham)'.
  • Tách mỗi email trong các RDD 'spam' và 'non-spam' thành các từ.
  • In phần tử đầu tiên trong RDD đã tách của cả 'spam' và 'non-spam'.