Ekstraktor konten
Pada latihan sebelumnya, Anda telah memastikan bahwa semua elemen dari vektor URL yang diberikan mengembalikan kode status 200. Sekarang setelah Anda tahu bahwa URL tersebut dapat diakses, Anda akan melangkah lebih jauh ke web scraping dengan melakukan ekstraksi konten.
Untuk itu, kita akan menggunakan fungsi-fungsi dari paket rvest, yang akan diisi sebelumnya dengan partial(). Fungsi-fungsi yang akan kita tulis dalam latihan ini akan mengekstrak semua node HTML H2 dari sebuah halaman — pada laman web, node H2 ini merupakan judul tingkat 2. Setelah judul-judul tersebut diekstrak, fungsi html_text() akan digunakan untuk mengambil konten teks dari HTML mentah.
purrr dan rvest telah dimuat untuk Anda, dan vektor urls tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Pemrograman Fungsional Tingkat Menengah dengan purrr
Petunjuk latihan
Mulailah dengan mengisikan terlebih dahulu
html_nodes()dengancss = "h2".Gabungkan fungsi baru ini di antara
read_htmldanhtml_text, untuk membuat ekstraktor teks bagi headerH2.Jalankan fungsi ini pada vektor
urls, dan beri nama hasilnya.Cetak hasilnya untuk melihat seperti apa bentuknya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Prefill html_nodes() with the css param set to h2
get_h2 <- ___(html_nodes, ___)
# Combine the html_text, get_h2 and read_html functions
get_content <- ___(___, ___, ___)
# Map get_content to the urls list
res <- ___(urls, ___) %>%
set_names(___)
# Print the results to the console
___