1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 웹 스크레이핑

Connected

연습 문제

html_table()로 표를 데이터 프레임으로 변환하기

표에 헤더 행(th 요소)이 있고 공백이 없다면, 다음과 같은 표(ID가 "clean")처럼 스크레이핑이 간단해요:

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

같은 표를 헤더 행이 지정되지 않고 첫 번째 행에 누락된 셀이 있는 형태(ID가 "dirty")로도 볼 수 있어요:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

이런 경우에는 동영상에서 보신 것처럼 html_table()에 추가 인수를 사용해 표를 올바르게 파싱할 수 있어요. 누락된 셀은 자동으로 인식되어 NA 값으로 대체됩니다.

두 표 모두 mountains_html 문서에 들어 있어요.

지침 1/2

undefined XP
  • 1

    ID가 "clean"인 table을 mountains라는 데이터 프레임으로 변환하세요.

  • 2
    • 같은 작업을 "dirty" table에도 수행하되, 첫 번째 줄을 헤더로 지정하세요.