1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tiền xử lý cho Machine Learning bằng Python

Connected

Bài tập

Phân loại văn bản bằng vector tf/idf

Bây giờ khi bạn đã mã hóa cột title của bộ dữ liệu volunteer thành các vector tf/idf, bạn sẽ dùng các vector này để dự đoán cột category_desc.

Hướng dẫn

100 XP
  • Chia vector text_tfidf và biến mục tiêu y thành tập huấn luyện và tập kiểm tra, đặt tham số stratify bằng y vì phân bố lớp không đồng đều. Lưu ý rằng chúng ta phải chạy phương thức .toarray() trên vector tf/idf để đưa nó về đúng định dạng cho scikit-learn.
  • Fit dữ liệu X_train và y_train vào mô hình Naive Bayes, nb.
  • In độ chính xác trên tập kiểm tra.