Ekstraktor lainnya
Pada latihan sebelumnya, kita membuat sebuah fungsi yang dapat mengekstrak konten teks dari header H2.
Sekarang kita coba hal lain: kita ingin mengekstrak semua tautan yang ada pada suatu halaman. Untuk melakukannya, kita perlu memanggil dua fungsi httr: html_nodes() dengan argumen css diatur ke "a" (a adalah tag HTML untuk tautan) dan html_attr() yang mengekstrak atribut tertentu dari sebuah node — dalam kasus kita, atribut tersebut adalah "href", yaitu alamat tautan.
purrr dan rvest telah dimuat untuk Anda. Vektor urls juga tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Pemrograman Fungsional Tingkat Menengah dengan purrr
Petunjuk latihan
Praisikan
html_nodes()dengan argumencssdiatur ke"a".Buat fungsi
href(), yang merupakan versi terpraisi darihtml_attr().Komposisikan kombinasi baru dari
href(),get_a()danread_html().Terapkan fungsi baru ini pada vektor
urls.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a partial version of html_nodes(), with the css param set to "a"
get_a <- ___(html_nodes, ___)
# Create href(), a partial version of html_attr()
href <- ___(___, name = "href")
# Combine href(), get_a(), and read_html()
get_links <- ___(___, ___, ___)
# Map get_links() to the urls list
res <- ___(urls, ___) %>%
set_names(urls)
# See the result
res