1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Xử lý Ngôn ngữ Tự nhiên với R

Connected

Bài tập

Tokenization: câu

Animal Farm là một cuốn sách phổ biến mà giáo viên tiếng Anh trung học cơ sở thường giao cho học sinh. Bạn quyết định khám phá văn bản và cung cấp một số thống kê tóm tắt để giáo viên tham khảo khi giao cuốn sách này cho học sinh. Bạn đã biết sách có 10 chương, và bạn cũng biết có thể dùng tokenization để đếm số lượng câu, từ, thậm chí cả đoạn. Trong bài tập này, bạn sẽ dùng các kỹ thuật tokenization đã học trong video để tách Animal Farm thành các câu và đếm chúng theo từng chương.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Tách văn bản thành các câu.