1. 학습
  2. /
  3. 강의
  4. /
  5. Intermediate Importing Data in Python

Connected

연습 문제

BeautifulSoup으로 HTML 파싱하기

이 인터랙티브 연습 문제에서는 BeautifulSoup 패키지를 사용해 HTML에서 정보를 파싱, 정리(prettify), 추출하는 방법을 배워봅니다. Python의 Benevolent Dictator for Life인 Guido van Rossum의 웹페이지에서 데이터를 스크레이핑할 거예요. 이어지는 단계에서 HTML을 예쁘게 정리한 뒤, 텍스트와 하이퍼링크를 추출해 보겠습니다.

문제에서 사용할 URL은 url = 'https://www.python.org/~guido/'입니다.

지침

100 XP
  • 패키지 bs4에서 함수 BeautifulSoup을(를) 임포트하세요.
  • 사용할 URL을 변수 url에 할당하세요.
  • requests.get() 하나의 함수 호출로 요청을 생성·전송하고 응답을 받아 변수 r에 저장하세요.
  • 객체 r의 text 속성을 사용해 웹페이지의 HTML을 문자열로 가져오고, 결과를 변수 html_doc에 저장하세요.
  • 함수 BeautifulSoup()을 사용해 결과 HTML로부터 BeautifulSoup 객체 soup을(를) 생성하세요.
  • soup에서 prettify() 메서드를 사용하고, 결과를 pretty_soup에 할당하세요.
  • Submit을 눌러 예쁘게 정리된 HTML을 셸에 출력하세요!