1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Phân đoạn câu với spaCy

Trong bài tập này, bạn sẽ thực hành phân đoạn câu. Trong NLP, tách một tài liệu thành các câu là một thao tác cơ bản hữu ích. Đây là một trong những bước đầu tiên của nhiều tác vụ NLP phức tạp hơn, chẳng hạn như nhận dạng thực thể có tên. Bên cạnh đó, nắm được số lượng câu cũng có thể giúp bạn ước lượng mức độ thông tin mà văn bản cung cấp.

Bạn có thể truy cập mười bài đánh giá về đồ ăn trong danh sách texts.

Mô hình en_core_web_sm đã được nạp sẵn dưới tên nlp và .

Hướng dẫn

100 XP
  • Chạy mô hình spaCy trên từng phần tử trong danh sách texts để tạo documents, một danh sách chứa tất cả các đối tượng Doc.
  • Trích xuất các câu từ mỗi đối tượng doc bằng cách lặp qua danh sách documents và thêm chúng vào danh sách sentences.
  • Đếm số câu trong mỗi đối tượng doc bằng cách sử dụng danh sách sentences.