MulaiMulai sekarang secara gratis

Kembali ke kantor

Anda masih bekerja sebagai analis data di sebuah agensi web, dan Anda diminta melakukan web scraping. Anda menerima sebuah daftar URL untuk dianalisis, analisis yang sudah Anda mulai pada bab sebelumnya.

Anda memperkirakan tugas ini akan berulang: besar kemungkinan Anda akan diminta melakukannya lagi dalam beberapa minggu. Untuk memudahkan pekerjaan Anda di masa depan, Anda memutuskan menulis kode yang rapi hari ini, agar lebih mudah ditinjau kembali nanti.

Kita akan mulai dengan menggabungkan dua fungsi dari httr yang telah kita lihat pada bab sebelumnya: GET(), untuk mengambil halaman web, dan status_code(), untuk mengekstrak status code, guna membuat sebuah ekstraktor status code.

Vektor urls masih tersedia di ruang kerja Anda. Kami hanya menyimpan URL yang dapat diakses.

Latihan ini adalah bagian dari kursus

Pemrograman Fungsional Tingkat Menengah dengan purrr

Lihat Kursus

Petunjuk latihan

  • Muat purrr dan httr.

  • Susun sebuah ekstraktor status dengan GET() dan status_code().

  • Coba fungsi baru ini pada "https://www.thinkr.fr" dan "https://en.wikipedia.org".

  • Petakan fungsi ini langsung pada vektor urls.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Launch purrr and httr



# Compose a status extractor 
status_extract <- ___(___, ___)

# Try with "https://thinkr.fr" & "https://en.wikipedia.org"
___("https://thinkr.fr")
___("https://en.wikipedia.org")

# Map it on the urls vector, return a vector of numbers
___(urls, ___)
Edit dan Jalankan Kode