Chuẩn bị văn bản đầu ra

Trong bài tập này, bạn sẽ chuẩn bị các văn bản đầu ra để dùng cho mô hình dịch. Bên cạnh việc biến đổi văn bản thành các dãy chỉ số, bạn cũng cần one-hot encode từng chỉ số.

Các văn bản tiếng Anh được nạp vào biến en_sentences, bộ tokenizer đã fit nằm trong biến output_tokenizer và kích thước từ vựng tiếng Anh nằm trong en_vocab_size.

Ngoài ra, một hàm để thực hiện các bước đầu của việc biến đổi ngôn ngữ đầu ra (chuyển văn bản thành dãy chỉ số) đã được tạo sẵn. Hàm này được nạp trong môi trường với tên transform_text_to_sequences() và có hai tham số: sentences nhận một danh sách câu tiếng Anh và tokenizer nhận một đối tượng Tokenizer đã fit từ mô-đun keras.preprocessing.text.

numpy đã được nạp với tên np.

Truyền các biến en_sentences và output_tokenizer vào hàm transform_text_to_sequences() để khởi tạo biến Y.
Dùng hàm to_categorical() để one-hot encode các câu. Dùng biến en_vocab_size làm số lớp.
Chuyển danh sách tạm thời thành mảng numpy và reshape để có dạng (num_sentences, sentences_len, en_vocab_size).
In ra văn bản thô và phiên bản đã biến đổi.

Bài tập

Chuẩn bị văn bản đầu ra

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập