1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Xử lý văn bản với spaCy

Mỗi ứng dụng NLP đều gồm nhiều bước xử lý văn bản. Bạn đã học một số bước như tokenization, lemmatization, phân đoạn câu và nhận dạng thực thể có tên.

spaCy NLP Pipeline

Trong bài tập này, bạn sẽ tiếp tục luyện tập các bước xử lý văn bản trong spaCy, như tách văn bản thành các câu và trích xuất thực thể có tên. Bạn sẽ dùng 5 bài đánh giá đầu tiên từ bộ dữ liệu Amazon Fine Food Reviews cho bài này. Bạn có thể truy cập các bài đánh giá đó thông qua đối tượng texts.

Mô hình en_core_web_sm đã được nạp sẵn để bạn sử dụng qua nlp. Danh sách các Doc tương ứng với từng phần tử trong texts cũng đã được chuẩn bị sẵn và có thể truy cập ở documents.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo sentences, một danh sách các danh sách chứa tất cả câu trong mỗi doc trong documents bằng list comprehension.
  • In num_sentences, một danh sách chứa số lượng câu của từng doc bằng phương thức len().