1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Web Scraping bằng R

Connected

Bài tập

Chọn phần tử con trực tiếp với bộ kết hợp child

Đến giờ, chắc chắn bạn đã biết cách chọn phần tử theo kiểu (type), theo lớp (class), hoặc theo ID. Tuy nhiên, có những trường hợp các bộ chọn này chưa đủ, chẳng hạn khi bạn chỉ muốn lấy các phần tử con trực tiếp của phần tử ul trên cùng. Khi đó, bạn sẽ dùng bộ kết hợp child (>) như đã giới thiệu trong video.

Tại đây, mục tiêu của bạn là trích xuất một danh sách (nằm trong tài liệu languages_html) tất cả các ngôn ngữ máy tính được nhắc đến, nhưng không kèm theo thông tin ở các gạch đầu dòng con:

  <ul id = 'languages'>
    <li>SQL</li>
    <ul>    
      <li>Databases</li>
      <li>Query Language</li>
    </ul>
    <li>R</li>
    <ul>
      <li>Collection</li>
      <li>Analysis</li>
      <li>Visualization</li>
    </ul>
    <li>Python</li>
  </ul>

Hướng dẫn 1/2

undefined XP
  • 1

    Trước tiên, lấy tất cả các phần tử li trong danh sách lồng nhau ở trên và in ra văn bản của chúng.

  • 2

    Khác với trước, hãy thử chỉ trích xuất các phần tử con trực tiếp của phần tử ul cấp cao nhất bằng cách dùng bộ kết hợp child.