Ritorno in ufficio
Stai ancora lavorando come data analyst per un’agenzia web e ti è stato chiesto di fare web scraping. Ti è stata fornita una lista di URL da analizzare, un’analisi che hai già iniziato nel capitolo precedente.
Ti aspetti che questo compito sia ricorrente: è molto probabile che ti venga richiesto di nuovo tra qualche settimana. Per rendere più semplice il lavoro futuro, hai deciso di scrivere fin da oggi del codice pulito, così potrai riprenderlo facilmente più avanti.
Cominciamo combinando le due funzioni di httr viste nel capitolo precedente: GET(), per recuperare la pagina web, e status_code(), per estrarre il codice di stato, in modo da creare un estrattore di codici di stato.
Il vettore urls è ancora disponibile nel tuo workspace. Abbiamo mantenuto solo gli URL raggiungibili.
Questo esercizio fa parte del corso
Programmazione funzionale intermedia con purrr
Istruzioni dell'esercizio
Carica
purrrehttr.Componi un estrattore di stato con
GET()estatus_code().Prova questa nuova funzione su "https://www.thinkr.fr" e "https://en.wikipedia.org".
Applica questa funzione direttamente al vettore
urls.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Launch purrr and httr
# Compose a status extractor
status_extract <- ___(___, ___)
# Try with "https://thinkr.fr" & "https://en.wikipedia.org"
___("https://thinkr.fr")
___("https://en.wikipedia.org")
# Map it on the urls vector, return a vector of numbers
___(urls, ___)