1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Token hóa bài diễn văn Gettysburg

Trong bài tập này, bạn sẽ token hóa một trong những bài diễn văn nổi tiếng nhất mọi thời đại: bài diễn văn Gettysburg do Tổng thống Mỹ Abraham Lincoln trình bày trong Nội chiến Hoa Kỳ.

Toàn bộ bài diễn văn đã được lưu trong một chuỗi tên là gettysburg.

Hướng dẫn

100 XP
  • Tải mô hình en_core_web_sm bằng spacy.load().
  • Tạo một đối tượng Doc doc cho chuỗi gettysburg.
  • Dùng list comprehension, lặp qua doc để tạo danh sách các văn bản token.