1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 웹 스크레이핑

Connected

연습 문제

httr 방식으로 해보기

최근 휴가를 보낸 아름다운 장소의 고도를 알아보려고 사용했던 rvest 코드가 있습니다.

# 위키피디아에서 HTML 문서 가져오기
wikipedia_page <- read_html('https://en.wikipedia.org/wiki/Varigotti')
# 문서를 파싱하고 그 안에서 고도 정보 추출하기
wikipedia_page %>% 
  html_elements('table tr:nth-child(9) > td') %>% 
  html_text()

영상에서 배우셨듯이, 이 예시처럼 URL을 넣으면 read_html()은 실제로 HTTP GET 요청을 보냅니다.

이번 연습 문제의 목표는 read_html() 없이, 대신 httr 메서드만으로 동일한 요청을 재현하는 것입니다.

참고: 보통은 rvest만으로 충분하지만, 이 장 후반에서 보실 것처럼 요청을 커스터마이즈하려면 httr 방식을 알아두셔야 합니다.

복습을 겸해, html_elements()에서 사용한 CSS 선택자를 XPATH 쿼리로도 바꿔 보겠습니다.

지침 1/2

undefined XP
    1
    2
  • httr 함수만 사용해 read_html()의 동작을 재현하세요. 위키피디아에 요청을 보내 응답을 받고, 그 응답 객체를 HTML 문서로 파싱해야 합니다.
  • 적절한 httr 함수를 사용해 결과 HTTP 상태 코드를 확인하세요.