1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Vector từ trong vốn từ vựng của spaCy

Mục đích của vector từ là giúp máy tính "hiểu" các từ. Trong bài tập này, bạn sẽ luyện cách trích xuất vector từ cho một danh sách từ cho trước.

Một danh sách từ đã được tạo sẵn là words. Mô hình en_core_web_md đã được nhập và có sẵn dưới tên nlp.

Vốn từ vựng của mô hình en_core_web_md chứa 20.000 từ. Nếu một từ không tồn tại trong vốn từ vựng, bạn sẽ không thể trích xuất vector từ tương ứng của nó. Trong bài tập này, để đơn giản, đảm bảo rằng tất cả các từ đã cho đều có trong vốn từ vựng của mô hình này.

Hướng dẫn

100 XP
  • Trích xuất các ID của toàn bộ words đã cho và lưu vào danh sách ids.
  • Với mỗi ID trong ids, lưu 10 phần tử đầu tiên của vector từ vào danh sách word_vectors.
  • In ra 10 phần tử đầu tiên của vector từ đầu tiên trong word_vectors.