Mengurai hyperlink ke dalam data frame
Perhatikan daftar ul berikut berisi "tautan bermanfaat".
Daftar ini terdiri atas tiga elemen li yang masing-masing berisi elemen a dengan tautan:
Helpful links
Disusun dengan bantuan Google.
Kode HTML yang sesuai tersedia sebagai string di hyperlink_raw_html.
Dalam latihan ini, Anda akan mengurai tautan-tautan tersebut ke dalam sebuah data frame R dengan memilih hanya elemen a yang berada di dalam elemen li.
PS: Anda akan menggunakan tibble(), sebuah fungsi dari Tidyverse, untuk itu. tibble() pada dasarnya adalah versi ringkas dari data.frame(), yang tentu sudah Anda kenal. Sama seperti data.frame(), Anda menentukan nama kolom dan datanya sebagai pasangan nama kolom dan nilai, seperti berikut:
my_tibble <- tibble(
column_name_1 = value_1,
column_name_2 = value_2,
...
)
Latihan ini adalah bagian dari kursus
Web Scraping di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract all the a nodes from the bulleted list
links <- hyperlink_raw_html %>%
read_html() %>%
html_elements('li ___')