1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập dữ liệu nâng cao trong Python

Connected

Bài tập

Biến trang web thành dữ liệu với BeautifulSoup: lấy các siêu liên kết

Trong bài này, bạn sẽ tìm cách trích xuất các URL của siêu liên kết từ trang web của BDFL. Trong quá trình đó, bạn sẽ làm quen thân với phương thức find_all() của soup.

Hướng dẫn

100 XP
  • Dùng phương thức find_all() để tìm tất cả siêu liên kết trong soup, nhớ rằng siêu liên kết được xác định bởi thẻ HTML <a> nhưng được truyền cho find_all() mà không có dấu ngoặc nhọn; lưu kết quả vào biến a_tags.
  • Biến a_tags là một tập kết quả: nhiệm vụ của bạn là duyệt qua nó bằng vòng lặp for và in ra các URL thực của những siêu liên kết; để làm điều này, với mỗi phần tử link trong a_tags, bạn cần print() link.get('href').