1. Learn
  2. /
  3. Courses
  4. /
  5. Regular Expressions nâng cao trong R

Connected

Exercise

Trích xuất một biểu thức chính quy nâng cao

Trong bài tập này, bạn sẽ tiếp nối các bài trước bằng cách xây dựng một biểu thức chính quy nâng cao hơn để lấy tiêu đề phim, tên công ty phát hành và số lượng màn hình ở mỗi dòng của data frame screens_per_movie.

Mỗi dòng của screens_per_movie đều có đủ ba phần này. Dùng extract để tách cả ba và tạo ra ba cột mới với đúng thông tin bạn cần ở dạng bảng, có cấu trúc. Bước này rất quan trọng nếu bạn muốn “hiểu” dữ liệu phi cấu trúc và chuyển nó về định dạng có thể phân tích và trực quan hóa sau này.

Instructions 1/3

undefined XP
    1
    2
    3
  • Trước hết, xem 3 dòng đầu của screens_per_movie để làm quen với cấu trúc dữ liệu.