1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm việc với Hugging Face

Connected

Bài tập

Tóm tắt văn bản dài

Tóm tắt giúp rút gọn văn bản lớn thành nội dung dễ xử lý, hỗ trợ người đọc nhanh chóng nắm bắt ý chính từ các bài viết hoặc tài liệu dài.

Có hai kiểu chính: trích xuất (extractive), chọn các câu then chốt từ văn bản gốc, và diễn giải (abstractive), tạo câu mới để tóm lược các ý chính.

Trong bài tập này, bạn sẽ tạo một pipeline tóm tắt kiểu diễn giải bằng hàm pipeline() của Hugging Face và mô hình cnicu/t5-small-booksum. Bạn sẽ tóm tắt văn bản từ một trang Wikipedia về Hy Lạp, rồi so sánh đầu ra đã được diễn đạt lại của mô hình diễn giải với bản gốc.

Hàm pipeline từ thư viện transformers và original_text đã được nạp sẵn cho bạn.

Hướng dẫn

100 XP
  • Tạo pipeline cho tác vụ "summarization" và lưu vào summarizer.
  • Dùng pipeline vừa tạo để tạo bản tóm tắt văn bản và lưu vào summary_text.
  • So sánh độ dài giữa văn bản gốc và bản tóm tắt.