1. Learn
  2. /
  3. Courses
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Exercise

Tách từ (Tokenization) với spaCy

Trong bài tập này, bạn sẽ thực hành tách từ cho văn bản. Bạn sẽ dùng bài đánh giá đầu tiên từ bộ dữ liệu Amazon Fine Food Reviews cho bài này. Bạn có thể truy cập bài đánh giá đó thông qua đối tượng text đã cung cấp.

Mô hình en_core_web_sm đã được tải sẵn cho bạn. Bạn có thể truy cập bằng cách gọi nlp(). Bạn có thể dùng list comprehension để tổng hợp các danh sách đầu ra.

Instructions

100 XP
  • Lưu Doc container cho bài đánh giá đã nạp sẵn vào một đối tượng document.
  • Lưu và xem lại văn bản của tất cả các token trong document vào biến first_text_tokens.