IniziaInizia gratis

Ritorno in ufficio

Stai ancora lavorando come data analyst per un’agenzia web e ti è stato chiesto di fare web scraping. Ti è stata fornita una lista di URL da analizzare, un’analisi che hai già iniziato nel capitolo precedente.

Ti aspetti che questo compito sia ricorrente: è molto probabile che ti venga richiesto di nuovo tra qualche settimana. Per rendere più semplice il lavoro futuro, hai deciso di scrivere fin da oggi del codice pulito, così potrai riprenderlo facilmente più avanti.

Cominciamo combinando le due funzioni di httr viste nel capitolo precedente: GET(), per recuperare la pagina web, e status_code(), per estrarre il codice di stato, in modo da creare un estrattore di codici di stato.

Il vettore urls è ancora disponibile nel tuo workspace. Abbiamo mantenuto solo gli URL raggiungibili.

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

Visualizza il corso

Istruzioni dell'esercizio

  • Carica purrr e httr.

  • Componi un estrattore di stato con GET() e status_code().

  • Prova questa nuova funzione su "https://www.thinkr.fr" e "https://en.wikipedia.org".

  • Applica questa funzione direttamente al vettore urls.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Launch purrr and httr



# Compose a status extractor 
status_extract <- ___(___, ___)

# Try with "https://thinkr.fr" & "https://en.wikipedia.org"
___("https://thinkr.fr")
___("https://en.wikipedia.org")

# Map it on the urls vector, return a vector of numbers
___(urls, ___)
Modifica ed esegui il codice