1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Luyện tập vẽ biểu đồ

Hãy vận dụng kỹ năng mới để tìm và vẽ biểu đồ số lượng từ trên mỗi dòng trong kịch bản bằng matplotlib. Toàn bộ kịch bản The Holy Grail đã được nạp sẵn cho bạn, và bạn cần dùng regex để tìm số từ trên mỗi dòng.

Dùng list comprehension sẽ giúp tăng tốc tính toán. Ví dụ: my_lines = [tokenize(l) for l in lines] sẽ gọi hàm tokenize trên từng dòng trong danh sách lines. Danh sách đã được biến đổi sẽ được lưu vào biến my_lines.

Bạn có thể truy cập toàn bộ kịch bản qua biến holy_grail. Bắt tay vào làm nhé!

Hướng dẫn

100 XP
  • Tách kịch bản holy_grail thành các dòng bằng ký tự xuống dòng ('\n').
  • Dùng re.sub() bên trong một list comprehension để thay thế các lời thoại mở đầu như ARTHUR: và SOLDIER #1. Mẫu (pattern) đã được viết sẵn cho bạn.
  • Dùng một list comprehension để token hóa lines với regexp_tokenize(), chỉ giữ lại các từ. Nhớ rằng mẫu cho từ là "\w+".
  • Dùng một list comprehension để tạo danh sách độ dài dòng có tên line_num_words.
    • Dùng t_line làm biến lặp để duyệt qua tokenized_lines, sau đó dùng hàm len() để tính độ dài dòng.
  • Vẽ biểu đồ histogram của line_num_words bằng plt.hist(). Đừng quên gọi plt.show() để hiển thị biểu đồ.