Chuẩn bị dữ liệu văn bản cho đầu vào của mô hình

Trước đó, bạn đã học cách tạo các từ điển ánh xạ chỉ số ↔ từ. Trong bài này, bạn sẽ tách văn bản theo ký tự và tiếp tục chuẩn bị dữ liệu cho học có giám sát.

Tách văn bản thành các ký tự có thể nghe lạ, nhưng cách này thường dùng cho bài toán sinh văn bản. Ngoài ra, quy trình chuẩn bị dữ liệu là như nhau, chỉ khác ở cách bạn tách văn bản.

Bạn sẽ tạo dữ liệu huấn luyện gồm danh sách các đoạn văn bản có độ dài cố định và nhãn của chúng, chính là các ký tự kế tiếp tương ứng.

Bạn sẽ tiếp tục dùng bộ dữ liệu chứa các câu trích của Sheldon (The Big Bang Theory), có trong biến sheldon_quotes.

Hàm print_examples() sẽ in ra các cặp để bạn thấy dữ liệu đã được biến đổi thế nào. Dùng help() để xem chi tiết.

Đặt step bằng 2 và chars_window bằng 10.
Thêm câu tiếp theo vào biến sentences.
Thêm vị trí đúng của văn bản sheldon vào biến next_chars.
Dùng hàm print_examples() để in 10 câu và các ký tự kế tiếp.

Bài tập

Chuẩn bị dữ liệu văn bản cho đầu vào của mô hình

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập