1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mạng nơ-ron hồi quy (RNN) cho Mô hình ngôn ngữ với Keras

Connected

Bài tập

Tạo các vector của câu và ký tự kế tiếp

Bài tập này nhằm nhấn mạnh hơn tầm quan trọng của việc tiền xử lý dữ liệu. Bạn sẽ dùng các đoạn thoại của nhân vật Sheldon trong chương trình The Big Bang Theory làm đầu vào và tạo các vector gồm chỉ số câu và ký tự kế tiếp, là những thành phần cần có trước khi xây dựng mô hình sinh văn bản.

Văn bản được lưu trong biến sheldon, cùng với bộ từ vựng (các ký tự) trong biến vocabulary và các siêu tham số chars_window và step có giá trị lần lượt là 20 và 3. Điều này có nghĩa là một chuỗi 20 ký tự sẽ được dùng để dự đoán ký tự tiếp theo, và cửa sổ sẽ trượt 3 ký tự ở mỗi vòng lặp.

Ngoài ra, gói pandas với bí danh pd đã được nạp trong môi trường.

Hướng dẫn

100 XP
  • Tách văn bản theo ký tự xuống dòng để lặp qua từng câu.
  • Lặp cho đến hết câu trừ đi chars_window.
  • Thêm đoạn của câu có độ dài chars_window ký tự vào biến sentences và thêm ký tự kế tiếp vào biến next_chars.
  • Dùng các vector thu được để tạo một pd.DataFrame() và in ra các dòng đầu tiên.