1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mạng nơ-ron hồi quy (RNN) cho Mô hình ngôn ngữ với Keras

Connected

Bài tập

Tiền xử lý với Keras

Mô-đun quan trọng thứ hai của Keras là keras.preprocessing. Bạn sẽ thấy cách dùng những mô-đun và hàm quan trọng nhất để chuẩn bị dữ liệu thô về đúng dạng đầu vào. Keras cung cấp các chức năng thay thế cách tiếp cận dùng từ điển mà bạn đã học trước đó.

Bạn sẽ dùng mô-đun keras.preprocessing.text.Tokenizer để tạo một từ điển từ bằng phương thức .fit_on_texts() và chuyển văn bản thành các id số đại diện cho chỉ mục của từng từ trong từ điển bằng phương thức .texts_to_sequences().

Sau đó, dùng hàm .pad_sequences() từ keras.preprocessing.sequence để cho tất cả các chuỗi có cùng kích thước (cần thiết cho mô hình) bằng cách thêm số 0 vào các văn bản ngắn và cắt bớt các văn bản dài.

Hướng dẫn

100 XP
  • Import Tokenizer và pad_sequences từ các mô-đun tương ứng.
  • Fit đối tượng tokenizer trên dữ liệu mẫu lưu trong texts.
  • Biến đổi văn bản thành các chuỗi chỉ mục số bằng phương thức .texts_to_sequences().
  • Cố định độ dài văn bản bằng cách padding chúng.