1. Learn
  2. /
  3. Courses
  4. /
  5. Web Scraping bằng R

Connected

Exercise

Phân tích (parse) siêu liên kết thành một data frame

Hãy xem danh sách ul dưới đây của các "liên kết hữu ích".

Danh sách này gồm ba phần tử li, mỗi phần tử chứa một thẻ a với liên kết:


Helpful links

  • Wikipedia
  • Dictionary
  • Search Engine

Compiled with help from Google.


Mã HTML tương ứng được cung cấp dưới dạng chuỗi trong hyperlink_raw_html.

Trong bài tập này, bạn sẽ phân tích các liên kết này vào một data frame của R bằng cách chọn chỉ các phần tử a nằm bên trong các phần tử li.

PS: Bạn sẽ dùng tibble(), một hàm từ Tidyverse. tibble() về cơ bản là phiên bản đơn giản hóa của data.frame() mà chắc hẳn bạn đã biết. Tương tự data.frame(), bạn chỉ định tên cột và dữ liệu theo cặp tên cột và giá trị, như sau:

my_tibble <- tibble(
  column_name_1 = value_1,
  column_name_2 = value_2,
  ...
)

Instructions 1/2

undefined XP
    1
    2
  • Trích xuất tất cả các nút a nằm trong danh sách gạch đầu dòng, dùng html_elements().