Biến đổi văn bản mới

Trong bài tập này, bạn sẽ biến đổi một văn bản mới thành các chuỗi chỉ số số học dựa trên các dictionary đã tạo trước đó.

Điều này hữu ích khi bạn đã có một mô hình được huấn luyện và muốn áp dụng nó lên một tập dữ liệu mới. Các bước tiền xử lý đã thực hiện trên dữ liệu huấn luyện cũng cần được áp dụng cho văn bản mới để mô hình có thể dự đoán/phân loại.

Tại đây, bạn cũng sẽ dùng token đặc biệt '<UKN/>' để biểu diễn những từ không có trong vocabulary. Thông thường, các token đặc biệt này sẽ nằm ở những chỉ số đầu tiên của dictionary, vị trí 0.

Các biến word_to_index, index_to_word và vocabulary đã được nạp sẵn trong môi trường. Ngoài ra, biến chứa văn bản mới cũng đã được nạp là new_text. Văn bản mới đã được in ra để bạn xem qua.

Lặp qua danh sách new_text chứa các câu.
Gán chỉ số 0 trong trường hợp không tìm thấy từ trong dictionary.
Thêm câu đã chuyển thành chỉ số vào biến new_text_split.
Chuyển các chỉ số ngược lại thành văn bản bằng dictionary index_to_word.

Bài tập

Biến đổi văn bản mới

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập