1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Deep Learning cho Văn bản với PyTorch

Connected

Bài tập

Bộ mã hoá ngôn ngữ Shakespeare

Với văn bản Shakespeare đã được tiền xử lý trong tay, giờ bạn cần mã hoá nó thành dạng số. Bạn sẽ cần xác định các bước mã hoá trước khi ghép thành pipeline hoàn chỉnh. Để xử lý lượng dữ liệu lớn và mã hoá hiệu quả, bạn sẽ dùng Dataset và DataLoader của PyTorch để batching và xáo trộn dữ liệu.

Những thành phần sau đã được nạp sẵn cho bạn: torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader, và preprocess_sentences.

processed_shakespeare từ văn bản Shakespeare cũng đã sẵn sàng cho bạn sử dụng.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Định nghĩa lớp dataset ShakespeareDataset và hoàn thiện các phương thức __init__ và __getitem__.