1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Tách từ với NLTK

Ở đây, bạn sẽ dùng cảnh đầu tiên của Monty Python's Holy Grail, đã được nạp sẵn dưới tên scene_one. Bạn có thể mở xem trong IPython Shell!

Nhiệm vụ của bạn trong bài tập này là sử dụng word_tokenize và sent_tokenize từ nltk.tokenize để tách cả từ và câu từ các chuỗi Python — trong trường hợp này là cảnh đầu tiên của Monty Python's Holy Grail.

Hướng dẫn

100 XP
  • Import các hàm sent_tokenize và word_tokenize từ nltk.tokenize.
  • Tách tất cả các câu trong scene_one bằng hàm sent_tokenize().
  • Tách từ ở câu thứ tư trong sentences (truy cập bằng sentences[3]) bằng hàm word_tokenize().
  • Tìm các token duy nhất trong toàn bộ cảnh bằng cách dùng word_tokenize() trên scene_one, rồi chuyển kết quả thành set với set().
  • In ra các token duy nhất tìm được. Phần này đã được viết sẵn, nên hãy nhấn "Gửi câu trả lời" để xem kết quả!