1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Chuyển một bảng thành data frame với html_table()

Nếu một bảng có hàng tiêu đề (với các phần tử th) và không có ô trống, việc thu thập dữ liệu sẽ khá đơn giản, như bảng sau (có ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Đây là cùng một bảng (có ID "dirty") nhưng không có hàng tiêu đề xác định và thiếu một ô ở hàng đầu tiên:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Với các trường hợp như vậy, html_table() có một đối số bổ sung mà bạn có thể dùng để phân tích cú pháp bảng cho đúng, như đã minh họa trong video. Các ô bị thiếu sẽ được tự động nhận diện và thay thế bằng giá trị NA.

Cả hai bảng đều nằm trong tài liệu mountains_html.

Hướng dẫn 1/2

undefined XP
  • 1

    Chuyển table có ID "clean" thành một data frame tên mountains.

  • 2
    • Làm tương tự với table "dirty", nhưng chỉ định dòng đầu là tiêu đề.