MulaiMulai sekarang secara gratis

Ekstraktor konten

Pada latihan sebelumnya, Anda telah memastikan bahwa semua elemen dari vektor URL yang diberikan mengembalikan kode status 200. Sekarang setelah Anda tahu bahwa URL tersebut dapat diakses, Anda akan melangkah lebih jauh ke web scraping dengan melakukan ekstraksi konten.

Untuk itu, kita akan menggunakan fungsi-fungsi dari paket rvest, yang akan diisi sebelumnya dengan partial(). Fungsi-fungsi yang akan kita tulis dalam latihan ini akan mengekstrak semua node HTML H2 dari sebuah halaman — pada laman web, node H2 ini merupakan judul tingkat 2. Setelah judul-judul tersebut diekstrak, fungsi html_text() akan digunakan untuk mengambil konten teks dari HTML mentah.

purrr dan rvest telah dimuat untuk Anda, dan vektor urls tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Pemrograman Fungsional Tingkat Menengah dengan purrr

Lihat Kursus

Petunjuk latihan

  • Mulailah dengan mengisikan terlebih dahulu html_nodes() dengan css = "h2".

  • Gabungkan fungsi baru ini di antara read_html dan html_text, untuk membuat ekstraktor teks bagi header H2.

  • Jalankan fungsi ini pada vektor urls, dan beri nama hasilnya.

  • Cetak hasilnya untuk melihat seperti apa bentuknya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Prefill html_nodes() with the css param set to h2
get_h2 <- ___(html_nodes, ___)

# Combine the html_text, get_h2 and read_html functions
get_content <- ___(___, ___, ___)

# Map get_content to the urls list
res <- ___(urls, ___) %>%
  set_names(___)

# Print the results to the console
___
Edit dan Jalankan Kode