Terug op kantoor
Je werkt nog steeds als data-analist bij een webbureau en je hebt de opdracht gekregen om web scraping te doen. Je hebt een lijst met URL's gekregen om te analyseren, een analyse waar je in het vorige hoofdstuk al mee bent begonnen.
Je verwacht dat deze taak terug zal komen: ongetwijfeld wordt je gevraagd dit over een paar weken opnieuw te doen. Om je toekomstige werk makkelijker te maken, heb je besloten vandaag al schoon code te schrijven, zodat je er later eenvoudiger op kunt terugkomen.
We beginnen met het combineren van de twee functies uit httr die we in het vorige hoofdstuk zagen: GET() om de webpagina op te halen, en status_code() om de statuscode te extraheren, zodat we een statuscode-extractor kunnen maken.
De vector urls is nog steeds beschikbaar in je werkruimte. We hebben alleen de URL's behouden die bereikbaar zijn.
Deze oefening maakt deel uit van de cursus
Gevorderd functioneel programmeren met purrr
Oefeninstructies
Start
purrrenhttr.Stel een statusextractor samen met
GET()enstatus_code().Probeer deze nieuwe functie op "https://www.thinkr.fr" en "https://en.wikipedia.org".
Pas deze functie direct toe op de vector
urls.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Launch purrr and httr
# Compose a status extractor
status_extract <- ___(___, ___)
# Try with "https://thinkr.fr" & "https://en.wikipedia.org"
___("https://thinkr.fr")
___("https://en.wikipedia.org")
# Map it on the urls vector, return a vector of numbers
___(urls, ___)