1. 학습
  2. /
  3. 강의
  4. /
  5. purrr로 배우는 중급 함수형 프로그래밍

Connected

연습 문제

콘텐츠 추출기

이전 연습에서는 제공된 URLs 벡터의 모든 요소가 200 상태 코드를 반환한다는 것을 확인했어요. 이제 접근 가능한 것을 알았으니, 웹 스크레이핑을 한 단계 더 진행해 실제 콘텐츠를 추출해 보겠습니다.

이를 위해 rvest 패키지의 함수를 사용하고, partial()로 인자를 미리 채워 둘 거예요. 이번 연습에서 작성할 함수는 페이지에서 모든 H2 HTML 노드를 추출합니다 — 웹페이지에서 H2 노드는 2단계 제목을 의미하죠. 제목 노드를 추출한 뒤에는 html_text() 함수를 사용해 원시 HTML에서 텍스트만 뽑아낼 거예요.

purrr와 rvest는 이미 로드되어 있으며, 작업 공간에는 urls 벡터가 준비되어 있어요.

지침

100 XP
  • 먼저 html_nodes()에 css = "h2"를 미리 채워 넣으세요.

  • 이렇게 만든 함수를 read_html과 html_text 사이에 결합해, H2 헤더의 텍스트를 추출하는 함수를 만드세요.

  • 만든 함수를 urls 벡터에 실행하고, 결과에 이름을 지정하세요.

  • 결과를 출력해 형태를 확인하세요.