1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Learning cho Văn bản với PyTorch

Connected

Bài tập

Tiền xử lý văn bản

Xây dựng hệ thống gợi ý, hay bất kỳ mô hình nào, đều cần tiền xử lý văn bản trước.

Một đoạn văn từ Sherlock Holmes đã được nạp sẵn. Hãy tiền xử lý đoạn này bằng các kỹ thuật bạn đã xem trong video để chuẩn bị cho bước phân tích tiếp theo.

Biến text là trích đoạn từ The Hound of the Baskervilles của Arthur Conan Doyle.

Các gói và hàm sau đã được nạp sẵn cho bạn: nltk, torch, get_tokenizer, PorterStemmer, stopwords.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Khởi tạo tokenizer với "basic_english".
  • Tách từ text bằng tokenizer.