1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Learning cho Văn bản với PyTorch

Connected

Bài tập

Bag-of-words cho tiêu đề sách

PyBooks hiện có một danh sách tiêu đề sách cần được mã hóa để phân tích sâu hơn. Nhóm dữ liệu cho rằng mô hình Bag of Words (BoW) có thể là cách tiếp cận tốt nhất.

Các gói sau đã được nhập sẵn cho bạn: torch, torchtext.

Hướng dẫn

100 XP
  • Nhập lớp CountVectorizer để triển khai bag-of-words.
  • Khởi tạo một đối tượng từ lớp bạn vừa nhập, sau đó dùng đối tượng này để biến đổi titles thành biểu diễn ma trận.
  • Trích xuất và hiển thị năm tên đặc trưng đầu tiên và các tiêu đề đã mã hóa bằng phương thức get_feature_names_out().