1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Chọn trực tiếp từ phần tử cha với text() của XPATH

Trong bài tập này, bạn sẽ làm việc với cùng một bảng. Lần này, bạn sẽ tách thông tin về chức năng nằm trong dấu ngoặc đơn thành một cột riêng, nên bạn cần trích xuất một data frame với không phải hai mà là ba cột: diễn viên, vai và chức năng.

Để làm được điều này, bạn cần áp dụng hàm XPATH cụ thể đã được giới thiệu trong video thay vì html_table(), vốn thường không hoạt động tốt trong thực tế nếu phần tử HTML table không được cấu trúc chuẩn, như trường hợp ở đây.

Để bạn tiện tham khảo, dưới đây là một đoạn trích HTML của bảng:

<table>
 <tr>
  <th>Actor</th>
  <th>Role</th>
 </tr>
 <tr>
  <td class = 'actor'>Jayden Carpenter</td>
  <td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
 </tr>
 ...
</table>

Trong bài này, biến roles_html chứa tài liệu HTML với phần tử table của nó.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Trước tiên, trích xuất diễn viên và vai từ bảng bằng XPATH.