1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Từ vựng trong spaCy

Word vectors, hay word embeddings, là các biểu diễn số của từ giúp máy tính thực hiện những tác vụ phức tạp với dữ liệu văn bản. Word vectors có trong nhiều mô hình spaCy, tuy nhiên một số mô hình không bao gồm word vectors.

Trong bài tập này, bạn sẽ luyện cách truy cập thông tin từ vựng của spaCy. Một số siêu thông tin về word vectors được lưu trong mỗi mô hình spaCy. Bạn có thể truy cập các thông tin này để tìm hiểu thêm về kích thước từ vựng, số chiều của word vectors, v.v.

Gói spaCy đã được nhập sẵn để bạn sử dụng. Trong siêu dữ liệu của một mô hình spaCy, số lượng từ được lưu dưới phần tử với khóa "vectors" và số chiều của word vectors được lưu dưới phần tử với khóa "width".

Hướng dẫn

100 XP
  • Nạp mô hình en_core_web_md.
  • In số lượng từ trong từ vựng của mô hình en_core_web_md.
  • In số chiều của word vectors trong mô hình en_core_web_md.