1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Chiếu (projection) vector từ

Bạn có thể trực quan hóa vector từ trên biểu đồ scatter để hiểu cách các từ vựng được nhóm lại. Để trực quan hóa vector từ, bạn cần chiếu chúng xuống không gian hai chiều. Bạn có thể thực hiện phép chiếu bằng cách trích xuất hai thành phần chính thông qua Principal Component Analysis (PCA).

Trong bài tập này, bạn sẽ luyện cách trích xuất vector từ và chiếu chúng vào không gian hai chiều bằng thư viện PCA từ sklearn.

Một danh sách ngắn các từ được lưu trong list words và mô hình en_core_web_md đã sẵn sàng để dùng. Mô hình được nạp là nlp. Tất cả thư viện và gói cần thiết đã được nhập sẵn cho bạn (PCA, numpy với tên np).

Hướng dẫn

100 XP
  • Trích xuất các ID từ các từ đã cho và lưu vào list word_ids.
  • Trích xuất năm phần tử đầu tiên của vector từ tương ứng và chồng chúng theo chiều dọc bằng np.vstack() trong word_vectors.
  • Với một đối tượng pca đã có, hãy tính các vector từ đã được biến đổi bằng hàm .fit_transform() của lớp pca.
  • In thành phần thứ nhất của các vector từ đã biến đổi bằng cách dùng chỉ số [:, 0].