Aan de slagGa gratis aan de slag

Doe het op de httr-manier

Hier is wat rvest-code die ik heb gebruikt om de hoogte te achterhalen van een prachtige plek waar ik onlangs op vakantie was.

# Haal het HTML-document op van Wikipedia
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# Parse het document en extraheer de hoogte eruit
wikipedia_page %>% 
  html_elements('table tr:nth-child(9) > td') %>% 
  html_text()

Zoals je in de video hebt geleerd, voert read_html() eigenlijk een HTTP GET-verzoek uit als je een URL meegeeft, zoals hier het geval is.

Het doel van deze oefening is om dezelfde query te reproduceren zonder read_html(), maar met httr-methoden.

Opmerking: meestal is rvest genoeg, maar als je verzoeken wilt aanpassen zoals later in dit hoofdstuk wordt getoond, moet je de httr-manier kennen.

Als kleine herhaling vertaal je ook de CSS-selector die in html_elements() wordt gebruikt naar een XPATH-query.

Deze oefening maakt deel uit van de cursus

Webscraping in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Get the HTML document from Wikipedia using httr
wikipedia_response <- ___('https://en.wikipedia.org/wiki/Varigotti')
# Parse the response into an HTML doc
wikipedia_page <- ___(___)
Code bewerken en uitvoeren