1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Použití throttlingu v crawleru pro více stránek

Cílem tohoto cvičení je získat souřadnice tří nejvyšších horských vrcholů na Zemi spolu s jejich názvy.

Tyto informace načteš v reálném čase z příslušných stránek Wikipedie. Aby ses Wikipedii zbytečně nevyhýbal/a přílišnou zátěží, použiješ throttling pomocí funkce slowly(). Po každém požadavku na stránku Wikipedie program chvíli počká. Tři stránky Wikipedie samy o sobě příliš nezatěžují, ale princip platí pro jakékoli množství scrapingu: buď ohleduplný/á a mezi požadavky vkládej prodlevu.

Název vrcholu najdeš v elementu s ID "firstHeading", souřadnice jsou v elementu s třídou "geo-dms", který je potomkem elementu s ID "coordinates".

purrr je předem načtený a URL adresy jsou uloženy v proměnné mountain_wiki_pages.

Pokyny 1/3

undefined XP
    1
    2
    3
  • Vytvoř funkci read_html(), která se při volání ve smyčce provede s prodlevou půl sekundy.