1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

TfidfVectorizer cho phân loại văn bản

Tương tự như CountVectorizer thưa (sparse) bạn đã tạo ở bài trước, bạn sẽ tạo các vector tf-idf cho tài liệu. Bạn sẽ thiết lập một TfidfVectorizer và tìm hiểu một số đặc điểm của nó.

Trong bài này, bạn sẽ dùng pandas và sklearn cùng với các DataFrame và Series X_train, y_train và X_test, y_test giống như bạn đã tạo ở bài trước.

Hướng dẫn

100 XP
  • Import TfidfVectorizer từ sklearn.feature_extraction.text.
  • Tạo một đối tượng TfidfVectorizer tên là tfidf_vectorizer. Khi tạo, chỉ định các tham số từ khóa stop_words="english" và max_df=0.7.
  • Fit và transform dữ liệu huấn luyện.
  • Transform dữ liệu kiểm tra.
  • In 10 đặc trưng đầu tiên của tfidf_vectorizer.
  • In 5 vector đầu tiên của dữ liệu huấn luyện tfidf bằng cách dùng slicing trên thuộc tính .A (hay array) của tfidf_train.