1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Ensemble Methods in Python

Connected

Bài tập

Phân tích cảm xúc với GBM

Bây giờ, hãy dùng GradientBoostingClassifier của scikit-learn trên tập dữ liệu reviews để dự đoán cảm xúc của một đánh giá dựa trên nội dung văn bản.

Chúng ta sẽ không đưa thẳng văn bản thô vào mô hình. Các bước tiền xử lý sau đã được thực hiện sẵn cho bạn:

  1. Loại bỏ các đánh giá bị thiếu giá trị.
  2. Chọn dữ liệu từ 5 ứng dụng hàng đầu.
  3. Lấy mẫu ngẫu nhiên 500 đánh giá.
  4. Loại bỏ "stop words" khỏi các đánh giá.
  5. Chuyển các đánh giá thành một ma trận, trong đó mỗi đặc trưng biểu diễn tần suất xuất hiện của một từ trong một đánh giá.

Muốn hiểu sâu hơn về khai phá văn bản? Hãy xem khóa học Introduction to Natural Language Processing in Python!

Hướng dẫn

100 XP
  • Xây dựng một GradientBoostingClassifier với 100 estimators và learning rate là 0.1.
  • Tính các dự đoán trên tập kiểm tra.
  • Tính độ chính xác để đánh giá mô hình.
  • Tính và in ra ma trận nhầm lẫn.