1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Ánh xạ chỉ số đặc trưng với tên đặc trưng

Trong video bài học, bạn đã thấy CountVectorizer không nhất thiết sắp xếp chỉ mục từ vựng theo thứ tự bảng chữ cái. Trong bài tập này, bạn sẽ học cách ánh xạ từng chỉ số đặc trưng với tên đặc trưng tương ứng trong từ vựng.

Chúng ta sẽ dùng lại ba câu về sư tử từ video. Các câu này có trong một danh sách tên là corpus và đã được in ra bảng điều khiển.

Hướng dẫn

100 XP
  • Khởi tạo một đối tượng CountVectorizer. Đặt tên là vectorizer.
  • Dùng fit_transform() để tạo bow_matrix cho corpus.
  • Dùng phương thức get_feature_names() để ánh xạ tên cột với từ tương ứng trong từ vựng.