1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping với Python

Connected

Bài tập

Liên kết (hyper) hoạt động

Một trong những thuộc tính quan trọng nhất cần trích xuất khi "web-crawling" là url siêu liên kết (thuộc tính href) trong thẻ a. Ở đây, bạn sẽ trích xuất một siêu liên kết như vậy! Chúng tôi đã tạo hàm print_attribute để in ra dữ liệu được trích xuất từ XPath của bạn, vì vậy bạn có thể thử nghiệm các chuỗi XPath trong bảng điều khiển nếu muốn.

Bài tập này tham chiếu đến mã nguồn HTML sau:

<html>
  <body>
    <div id="div1" class="class-1">
      <p class="class-1 class-2">Hello World!</p>
      <div id="div2">
        <p id="p2" class="class-2">Choose 
            <a href="http://datacamp.com">DataCamp!</a>!
        </p>
      </div>
    </div>
    <div id="div3" class="class-2">
      <p class="class-2">Thanks for Watching!</p>
    </div>
  </body>
</html>

Hướng dẫn

100 XP
  • Điền vào chỗ trống để hoàn thiện biến xpath bên dưới nhằm chọn giá trị thuộc tính href từ siêu liên kết DataCamp.