1. Nauka
  2. /
  3. Kursy
  4. /
  5. Web Scraping w R

Connected

ćwiczenie

Wykorzystaj unikalność ID

Jak wiesz, ID powinny być unikalne na stronie internetowej. Jeśli masz pewność, że tak jest, możesz znacznie uprościć selektory używane podczas scrapingu.

Oto struktura strony HTML, którą możesz spotkać w praktyce:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Strona została już wczytana za pomocą read_html() i jest dostępna jako structured_html.

Instrukcje

100 XP
  • Używając html_elements(), znajdź jak najkrótszy selektor, który wybierze pierwszy element div w structured_html.