1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

word2vec

Bạn đã web-scraping rất nhiều chức danh công việc từ Internet và chưa chắc có cần thu thập thêm chức danh cho phân tích hay không. Đến hiện tại, bạn đã gom được hơn 13.000 chức danh trong bộ dữ liệu tên là job_titles. Bạn đọc được rằng word2vec thường cho kết quả tốt nhất khi mô hình có đủ dữ liệu để huấn luyện đúng cách, và nếu các từ không xuất hiện đủ nhiều trong dữ liệu, mô hình có thể không hữu ích.

Trong bài tập này, bạn sẽ kiểm tra mức độ hữu ích của dữ liệu bổ sung bằng cách chạy mô hình 3 lần; mỗi lần chạy sẽ dùng thêm dữ liệu.

Hướng dẫn 1/3

undefined XP
  • 1
    • Dùng 33% dữ liệu hiện có, in danh sách các từ đồng nghĩa của từ teacher.
  • 2
    • Cập nhật mã để sử dụng 66% dữ liệu hiện có.
  • 3
    • Cập nhật mã để sử dụng 100% dữ liệu hiện có.