1. 学习
  2. /
  3. 课程
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

练习

Mô hình n-gram cho khẩu hiệu phim

Trong bài tập này, bạn được cung cấp một corpus gồm hơn 9000 khẩu hiệu (tag line) của phim. Nhiệm vụ của bạn là tạo các mô hình n-gram với n tối đa lần lượt bằng 1, 2 và 3 cho dữ liệu này, rồi tìm số lượng đặc trưng của mỗi mô hình.

Sau đó, chúng ta sẽ so sánh số lượng đặc trưng được tạo ra ở từng mô hình.

说明

100 XP
  • Tạo mô hình n-gram với n-gram đến n=1. Đặt tên là ng1
  • Tạo mô hình n-gram với n-gram đến n=2. Đặt tên là ng2
  • Tạo mô hình n-gram với n-gram đến n=3. Đặt tên là ng3
  • In ra số lượng đặc trưng của mỗi mô hình.