1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập dữ liệu nâng cao trong Python

Connected

Bài tập

Phân tích HTML với BeautifulSoup

Trong bài tập tương tác này, bạn sẽ học cách dùng gói BeautifulSoup để parse, prettify và trích xuất thông tin từ HTML. Bạn sẽ thu thập dữ liệu từ trang web của Guido van Rossum, Benevolent Dictator for Life của chính Python. Ở các bước tiếp theo, bạn sẽ làm đẹp HTML rồi trích xuất phần văn bản và các siêu liên kết.

URL cần quan tâm là url = 'https://www.python.org/~guido/'.

Hướng dẫn

100 XP
  • Import hàm BeautifulSoup từ gói bs4.
  • Gán URL cần lấy vào biến url.
  • Đóng gói yêu cầu đến URL, gửi yêu cầu và nhận phản hồi chỉ với một hàm requests.get(), gán phản hồi cho biến r.
  • Dùng thuộc tính text của đối tượng r để lấy HTML của trang web dưới dạng chuỗi; lưu kết quả vào biến html_doc.
  • Tạo một đối tượng BeautifulSoup soup từ HTML thu được bằng hàm BeautifulSoup().
  • Dùng phương thức prettify() trên soup và gán kết quả cho pretty_soup.
  • Nhấn Gửi để in HTML đã được làm đẹp ra shell của bạn!