1. Nauka
  2. /
  3. Kursy
  4. /
  5. Web Scraping w R

Connected

ćwiczenie

Zastosuj ograniczanie częstotliwości w crawlerze wielostronicowym

Celem tego ćwiczenia jest pobranie współrzędnych trzech najwyższych szczytów górskich na Ziemi wraz z ich nazwami.

Informacje te pobierzesz w czasie rzeczywistym z odpowiednich stron Wikipedii. Aby nie przeciążać Wikipedii, zastosujesz ograniczanie częstotliwości przy użyciu funkcji slowly(). Po każdym żądaniu do strony Wikipedii program powinien odczekać chwilę. Trzy strony Wikipedii to może niewiele, ale zasada ta obowiązuje przy każdej skali scrapowania: bądź ostrożny i dodawaj odstępy czasowe między żądaniami.

Nazwę szczytu znajdziesz wewnątrz elementu o ID "firstHeading", natomiast współrzędne znajdują się w elemencie z klasą "geo-dms", który jest potomkiem elementu o ID "coordinates".

purrr jest już wczytany, a adresy URL są zawarte w zmiennej mountain_wiki_pages.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Zbuduj funkcję read_html(), która podczas wykonywania w pętli działa z opóźnieniem wynoszącym pół sekundy.