콘텐츠 추출기

이전 연습에서는 제공된 URLs 벡터의 모든 요소가 200 상태 코드를 반환한다는 것을 확인했어요. 이제 접근 가능한 것을 알았으니, 웹 스크레이핑을 한 단계 더 진행해 실제 콘텐츠를 추출해 보겠습니다.

이를 위해 rvest 패키지의 함수를 사용하고, partial()로 인자를 미리 채워 둘 거예요. 이번 연습에서 작성할 함수는 페이지에서 모든 H2 HTML 노드를 추출합니다 — 웹페이지에서 H2 노드는 2단계 제목을 의미하죠. 제목 노드를 추출한 뒤에는 html_text() 함수를 사용해 원시 HTML에서 텍스트만 뽑아낼 거예요.

purrr와 rvest는 이미 로드되어 있으며, 작업 공간에는 urls 벡터가 준비되어 있어요.