1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Regular Expressions nâng cao trong R

Connected

Bài tập

Khớp tất cả nhóm bắt

Trong bài tập này, bạn sẽ làm việc với tệp văn bản tên top_10 lưu tên phim và thứ hạng của chúng. Trong văn bản nhiều dòng này, \\n được dùng để bắt đầu một dòng mới. Bạn sẽ dùng hàm str_split() để tách tệp văn bản thành nhiều dòng.

Ma trận một hàng vừa tạo top_10_lines sau đó chứa mười dòng có cùng mẫu: Thứ hạng của phim, theo sau là một dấu chấm, một khoảng trắng và đến tiêu đề phim. Hàm str_match() và hai nhóm bắt () sẽ giúp trích xuất hai mẩu thông tin này từ văn bản thuần sang dạng bảng.

Hướng dẫn

100 XP
  • Dùng hàm str_split() để tách văn bản thành các dòng, xuất ra một ma trận ký tự bằng cách bật simplify.
  • Làm quen với cấu trúc của một dòng. Nó chứa thứ hạng và tiêu đề của một bộ phim.
  • Trích xuất thứ hạng và tiêu đề của một bộ phim bằng cách dùng các nhóm bắt trong hàm str_match().