1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

CountVectorizer cho phân loại văn bản

Đến lúc bắt đầu xây dựng bộ phân loại văn bản của bạn! Dữ liệu đã được nạp vào một DataFrame tên là df. Hãy khám phá trong IPython Shell để xem có những cột nào có thể dùng. Phương thức .head() đặc biệt hữu ích.

Trong bài này, bạn sẽ dùng pandas cùng scikit-learn để tạo một bộ biến đổi văn bản thưa (sparse vectorizer) nhằm huấn luyện và kiểm tra một mô hình supervised đơn giản. Đầu tiên, bạn sẽ thiết lập CountVectorizer và tìm hiểu một số tính năng của nó.

Hướng dẫn

100 XP
  • Import CountVectorizer từ sklearn.feature_extraction.text và train_test_split từ sklearn.model_selection.
  • Tạo một Series y để dùng làm nhãn bằng cách gán thuộc tính .label của df cho y.
  • Sử dụng df["text"] (đặc trưng) và y (nhãn), tạo các tập huấn luyện và kiểm tra bằng train_test_split(). Dùng test_size là 0.33 và random_state là 53.
  • Tạo một đối tượng CountVectorizer tên là count_vectorizer. Nhớ chỉ định tham số stop_words="english" để loại bỏ stop words.
  • Fit và biến đổi dữ liệu huấn luyện X_train bằng phương thức .fit_transform() của đối tượng CountVectorizer. Thực hiện tương tự với dữ liệu kiểm tra X_test, nhưng dùng phương thức .transform().
  • In ra 10 đặc trưng đầu tiên của count_vectorizer bằng phương thức .get_feature_names() của nó.