Mach es auf die httr-Art
Hier ist etwas rvest-Code, mit dem ich die Höhenlage eines wunderschönen Ortes herausgefunden habe, an dem ich kürzlich im Urlaub war.
# HTML-Dokument von Wikipedia abrufen
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# Das Dokument parsen und die Höhenlage daraus extrahieren
wikipedia_page %>%
html_elements('table tr:nth-child(9) > td') %>%
html_text()
Wie du im Video gelernt hast, sendet read_html() tatsächlich eine HTTP-GET-Anfrage, wenn eine URL übergeben wird – so wie hier.
Ziel dieser Übung ist es, dieselbe Abfrage ohne read_html() zu reproduzieren, stattdessen mit Methoden aus httr.
Hinweis: Meistens reicht rvest aus, aber wenn du Anfragen anpassen möchtest – wie später in diesem Kapitel gezeigt –, musst du den Weg über httr kennen.
Zur Wiederholung übersetzt du außerdem den in html_elements() verwendeten CSS-Selektor in eine XPATH-Abfrage.
Diese Übung ist Teil des Kurses
Web Scraping in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Get the HTML document from Wikipedia using httr
wikipedia_response <- ___('https://en.wikipedia.org/wiki/Varigotti')
# Parse the response into an HTML doc
wikipedia_page <- ___(___)