Kembali ke kantor
Anda masih bekerja sebagai analis data di sebuah agensi web, dan Anda diminta melakukan web scraping. Anda menerima sebuah daftar URL untuk dianalisis, analisis yang sudah Anda mulai pada bab sebelumnya.
Anda memperkirakan tugas ini akan berulang: besar kemungkinan Anda akan diminta melakukannya lagi dalam beberapa minggu. Untuk memudahkan pekerjaan Anda di masa depan, Anda memutuskan menulis kode yang rapi hari ini, agar lebih mudah ditinjau kembali nanti.
Kita akan mulai dengan menggabungkan dua fungsi dari httr yang telah kita lihat pada bab sebelumnya: GET(), untuk mengambil halaman web, dan status_code(), untuk mengekstrak status code, guna membuat sebuah ekstraktor status code.
Vektor urls masih tersedia di ruang kerja Anda. Kami hanya menyimpan URL yang dapat diakses.
Latihan ini adalah bagian dari kursus
Pemrograman Fungsional Tingkat Menengah dengan purrr
Petunjuk latihan
Muat
purrrdanhttr.Susun sebuah ekstraktor status dengan
GET()danstatus_code().Coba fungsi baru ini pada "https://www.thinkr.fr" dan "https://en.wikipedia.org".
Petakan fungsi ini langsung pada vektor
urls.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Launch purrr and httr
# Compose a status extractor
status_extract <- ___(___, ___)
# Try with "https://thinkr.fr" & "https://en.wikipedia.org"
___("https://thinkr.fr")
___("https://en.wikipedia.org")
# Map it on the urls vector, return a vector of numbers
___(urls, ___)