Kembali ke kantor
Anda masih bekerja sebagai analis data di sebuah agensi web, dan Anda diminta melakukan web scraping. Anda menerima sebuah daftar URL untuk dianalisis, analisis yang sudah Anda mulai pada bab sebelumnya.
Anda memperkirakan tugas ini akan berulang: besar kemungkinan Anda akan diminta melakukannya lagi dalam beberapa minggu. Untuk memudahkan pekerjaan Anda di masa depan, Anda memutuskan menulis kode yang rapi hari ini, agar lebih mudah ditinjau kembali nanti.
Kita akan mulai dengan menggabungkan dua fungsi dari httr yang telah kita lihat pada bab sebelumnya: GET(), untuk mengambil halaman web, dan status_code(), untuk mengekstrak status code, guna membuat sebuah ekstraktor status code.
Vektor urls masih tersedia di ruang kerja Anda. Kami hanya menyimpan URL yang dapat diakses.
Latihan ini merupakan bagian dari kursus
Pemrograman Fungsional Tingkat Menengah dengan purrr
Instruksi latihan
Muat
purrrdanhttr.Susun sebuah ekstraktor status dengan
GET()danstatus_code().Coba fungsi baru ini pada "https://www.thinkr.fr" dan "https://en.wikipedia.org".
Petakan fungsi ini langsung pada vektor
urls.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Launch purrr and httr
# Compose a status extractor
status_extract <- ___(___, ___)
# Try with "https://thinkr.fr" & "https://en.wikipedia.org"
___("https://thinkr.fr")
___("https://en.wikipedia.org")
# Map it on the urls vector, return a vector of numbers
___(urls, ___)