Mach es auf die httr-Art

Hier ist etwas rvest-Code, mit dem ich die Höhenlage eines wunderschönen Ortes herausgefunden habe, an dem ich kürzlich im Urlaub war.

# HTML-Dokument von Wikipedia abrufen
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# Das Dokument parsen und die Höhenlage daraus extrahieren
wikipedia_page %>% 
  html_elements('table tr:nth-child(9) > td') %>% 
  html_text()

Wie du im Video gelernt hast, sendet read_html() tatsächlich eine HTTP-GET-Anfrage, wenn eine URL übergeben wird – so wie hier.

Ziel dieser Übung ist es, dieselbe Abfrage ohne read_html() zu reproduzieren, stattdessen mit Methoden aus httr.

Hinweis: Meistens reicht rvest aus, aber wenn du Anfragen anpassen möchtest – wie später in diesem Kapitel gezeigt –, musst du den Weg über httr kennen.

Zur Wiederholung übersetzt du außerdem den in html_elements() verwendeten CSS-Selektor in eine XPATH-Abfrage.

Diese Übung ist Teil des Kurses

<Kurs>Web Scraping in R</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Get the HTML document from Wikipedia using httr
wikipedia_response <- ___('https://en.wikipedia.org/wiki/Varigotti')
# Parse the response into an HTML doc
wikipedia_page <- ___(___)

Code bearbeiten und ausführen