1. Nauka
  2. /
  3. Kursy
  4. /
  5. Web Scraping w R

Connected

ćwiczenie

Zrób to po httr-owemu

Oto kod rvest, którego użyłem(-am), żeby sprawdzić wysokość nad poziomem morza pewnego pięknego miejsca, w którym niedawno spędziłem(-am) wakacje.

# Get the HTML document from Wikipedia
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# Parse the document and extract the elevation from it
wikipedia_page %>% 
  html_elements('table tr:nth-child(9) > td') %>% 
  html_text()

Jak pokazano w materiale wideo, read_html() wysyła w rzeczywistości żądanie HTTP GET, gdy podasz mu adres URL – tak jak w tym przypadku.

Celem tego ćwiczenia jest odtworzenie tego samego zapytania bez read_html(), ale z użyciem metod z pakietu httr.

Uwaga: na co dzień rvest w zupełności wystarcza, ale jeśli chcesz dostosowywać żądania – czego nauczysz się w dalszej części tego rozdziału – musisz poznać sposób działania httr.

Dla utrwalenia wiedzy przetłumaczysz też selektor CSS użyty w html_elements() na zapytanie XPATH.

Instrukcje 1/2

undefined XP
    1
    2
  • Użyj wyłącznie funkcji z pakietu httr, aby odwzorować działanie read_html() – pobierz odpowiedź z Wikipedii i przetwórz obiekt odpowiedzi na dokument HTML.
  • Sprawdź wynikowy kod statusu HTTP za pomocą odpowiedniej funkcji z pakietu httr.