1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Mạng nơ-ron hồi quy (RNN) cho Mô hình ngôn ngữ với Keras

Connected

Bài tập

Tiền xử lý dữ liệu

Bạn đã học về những khác biệt khi tiền xử lý dữ liệu cho bài toán phân loại đa lớp. Hãy áp dụng vào thực hành bằng cách tiền xử lý dữ liệu để chuẩn bị tạo một mô hình phân loại đa lớp đơn giản.

Bộ dữ liệu đã được nạp vào biến news_dataset, và có các thuộc tính sau:

  • news_dataset.data: mảng chứa văn bản
  • news_dataset.target: mảng chứa các danh mục mục tiêu dưới dạng chỉ số số

Dữ liệu mẫu gồm 5.000 quan sát.

Hướng dẫn

100 XP
  • Khởi tạo lớp Tokenizer vào biến tokenizer.
  • Fit biến tokenizer trên dữ liệu văn bản.
  • Dùng phương thức .texts_to_sequences() trên dữ liệu văn bản.
  • Dùng hàm to_categorical() để chuẩn bị các chỉ số mục tiêu.