1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Způsob httr

Tady je kód v rvest, který jsem použil k zjištění nadmořské výšky krásného místa, kde jsem nedávno trávil dovolenou.

# Get the HTML document from Wikipedia
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# Parse the document and extract the elevation from it
wikipedia_page %>% 
  html_elements('table tr:nth-child(9) > td') %>% 
  html_text()

Jak sis mohl/a všimnout z videa, funkce read_html() při zadání URL ve skutečnosti odešle HTTP GET požadavek, jako v tomto případě.

Cílem tohoto cvičení je zreplikovat stejný dotaz bez read_html(), ale místo toho s metodami z balíčku httr.

Poznámka: Většinou si vystačíš s rvest, ale pokud chceš přizpůsobit požadavky, jak ti ukážeme dále v této kapitole, budeš potřebovat znát způsob httr.

Pro malé zopakování také převedeš CSS selektor použitý v html_elements() na XPATH dotaz.

Pokyny 1/2

undefined XP
    1
    2
  • Použij pouze funkce z balíčku httr, aby ses zreplikoval/a chování read_html() — včetně získání odpovědi z Wikipedie a jejího zpracování do HTML dokumentu.
  • Zkontroluj výsledný HTTP stavový kód pomocí příslušné funkce z httr.