Bài tập

Pipeline tiền xử lý ngôn ngữ Shakespeare

Tại PyBooks, nhóm muốn chuyển đổi một thư viện lớn dữ liệu văn bản của Shakespeare để phục vụ phân tích tiếp theo. Cách hiệu quả nhất là xây dựng một pipeline xử lý văn bản, bắt đầu từ các bước tiền xử lý.

Những nội dung sau đã được nạp sẵn cho bạn: torch, nltk, stopwords, PorterStemmer, get_tokenizer.

Dữ liệu văn bản Shakespeare được lưu trong shakespeare và các câu đã được trích xuất sẵn.

Hướng dẫn 1/3

undefined XP

1

2

3

Tạo danh sách các stopword tiếng Anh duy nhất và lưu vào stop_words.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn 1/3

Bài tập