1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Seznamte se s funkcí position()

Jak jsi viděl/a ve videu, funkce position() je v rámci predikátu velmi mocný nástroj. V kombinaci s operátory dokážeš vybrat prakticky libovolný uzel ze všech, které odpovídají danému výrazu.

Vyzkouš si to na následujícím HTML fragmentu, který máš k dispozici v proměnné rules_html. Představ si, že jde o průběžně aktualizovaný web zobrazující aktuální covidová pravidla pro dnešní a zítřejší den.

...
<div>
  <h2>Today's rules</h2>
  <p>Wear a mask</p>
  <p>Wash your hands</p>
</div>
<div>
  <h2>Tomorrow's rules</h2>
  <p>Wear a mask</p>
  <p>Wash your hands</p>
  <small>Bring hand sanitizer with you</small>
</div>
...

Instrukce 1/3

undefined XP
  • 1
    • Pomocí XPATH nejprve extrahuj text druhého prvku p v každém divu.
  • 2
    • Teď extrahuj text všech prvků p (kromě druhého) v každém divu.
  • 3
    • Extrahuj text posledních tří potomků druhého divu.
    • Pro výběr těchto uzlů použij operátor >=.