1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Využij jedinečnost ID

Jak víš, ID by měla být na webové stránce jedinečná. Pokud to tak skutečně je, může to výrazně zjednodušit selektory pro web scraping.

Níže je struktura HTML stránky, na kterou můžeš narazit v praxi:

<html>
  <body>
    <div id = 'first'>
      <h1 class = 'big'>Joe Biden</h1>
      <p class = 'first blue'>Democrat</p>
      <p class = 'second blue'>Male</p>
    </div>
    <div id = 'second'>...</div>
    <div id = 'third'>
      <h1 class = 'big'>Donald Trump</h1>
      <p class = 'first red'>Republican</p>
      <p class = 'second red'>Male</p>
    </div>
  </body>
</html>

Stránka už je načtená pomocí read_html() a je dostupná přes proměnnou structured_html.

Pokyny

100 XP
  • Pomocí html_elements() najdi co nejkratší selektor, kterým vyberéš první div v structured_html.