Aan de slagGa gratis aan de slag

Terug op kantoor

Je werkt nog steeds als data-analist bij een webbureau en je hebt de opdracht gekregen om web scraping te doen. Je hebt een lijst met URL's gekregen om te analyseren, een analyse waar je in het vorige hoofdstuk al mee bent begonnen.

Je verwacht dat deze taak terug zal komen: ongetwijfeld wordt je gevraagd dit over een paar weken opnieuw te doen. Om je toekomstige werk makkelijker te maken, heb je besloten vandaag al schoon code te schrijven, zodat je er later eenvoudiger op kunt terugkomen.

We beginnen met het combineren van de twee functies uit httr die we in het vorige hoofdstuk zagen: GET() om de webpagina op te halen, en status_code() om de statuscode te extraheren, zodat we een statuscode-extractor kunnen maken.

De vector urls is nog steeds beschikbaar in je werkruimte. We hebben alleen de URL's behouden die bereikbaar zijn.

Deze oefening maakt deel uit van de cursus

Gevorderd functioneel programmeren met purrr

Cursus bekijken

Oefeninstructies

  • Start purrr en httr.

  • Stel een statusextractor samen met GET() en status_code().

  • Probeer deze nieuwe functie op "https://www.thinkr.fr" en "https://en.wikipedia.org".

  • Pas deze functie direct toe op de vector urls.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Launch purrr and httr



# Compose a status extractor 
status_extract <- ___(___, ___)

# Try with "https://thinkr.fr" & "https://en.wikipedia.org"
___("https://thinkr.fr")
___("https://en.wikipedia.org")

# Map it on the urls vector, return a vector of numbers
___(urls, ___)
Code bewerken en uitvoeren