MulaiMulai sekarang secara gratis

Ekstraktor lainnya

Pada latihan sebelumnya, kita membuat sebuah fungsi yang dapat mengekstrak konten teks dari header H2.

Sekarang kita coba hal lain: kita ingin mengekstrak semua tautan yang ada pada suatu halaman. Untuk melakukannya, kita perlu memanggil dua fungsi httr: html_nodes() dengan argumen css diatur ke "a" (a adalah tag HTML untuk tautan) dan html_attr() yang mengekstrak atribut tertentu dari sebuah node — dalam kasus kita, atribut tersebut adalah "href", yaitu alamat tautan.

purrr dan rvest telah dimuat untuk Anda. Vektor urls juga tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Pemrograman Fungsional Tingkat Menengah dengan purrr

Lihat Kursus

Petunjuk latihan

  • Praisikan html_nodes() dengan argumen css diatur ke "a".

  • Buat fungsi href(), yang merupakan versi terpraisi dari html_attr().

  • Komposisikan kombinasi baru dari href(), get_a() dan read_html().

  • Terapkan fungsi baru ini pada vektor urls.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a partial version of html_nodes(), with the css param set to "a"
get_a <- ___(html_nodes, ___)

# Create href(), a partial version of html_attr()
href <- ___(___, name = "href")

# Combine href(), get_a(), and read_html()
get_links <- ___(___, ___, ___)

# Map get_links() to the urls list
res <- ___(urls, ___) %>%
  set_names(urls)

# See the result
res
Edit dan Jalankan Kode