1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tiền xử lý cho Machine Learning bằng Python

Connected

Bài tập

Mô hình hóa bộ dữ liệu UFO, phần 2

Cuối cùng, bạn sẽ xây dựng một mô hình sử dụng vector văn bản mà chúng ta đã tạo, desc_tfidf, và dùng danh sách filtered_words để tạo một vector văn bản đã lọc. Hãy xem bạn có thể dự đoán type của lần nhìn thấy dựa trên văn bản hay không. Bạn sẽ dùng mô hình Naive Bayes cho bài này.

Hướng dẫn

100 XP
  • Lọc vector desc_tfidf bằng cách truyền một danh sách filtered_words vào chỉ mục.
  • Chia các đặc trưng filtered_text và y, đảm bảo phân bố lớp cân bằng giữa các tập huấn luyện và kiểm tra; dùng random_state là 42.
  • Dùng .fit() của mô hình nb để huấn luyện X_train và y_train.
  • In ra .score() của mô hình nb trên các tập X_test và y_test.