1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Výběr posledního potomka pomocí pseudo-třídy

V následujícím HTML kódu, který zobrazuje autora textu v posledním odstavci, jsou dvě skupiny uzlů p:

<html>
  <body>
    <div>
      <p class = 'text'>A sophisticated text [...]</p>
      <p class = 'text'>Another paragraph following [...]</p>
      <p class = 'text'>Author: T.G.</p>
    </div>
    <p>Copyright: DC</p>
  </body>
</html>

V tomto cvičení je tvým úkolem vybrat poslední uzel p uvnitř elementu div.

Jak ses naučil/a ve videu, pseudo-třídy se hodí vždy, když nemáš jiný způsob, jak vybrat konkrétní uzel stránky – například pomocí selektoru ID nebo unikátní třídy.

Výše uvedený HTML dokument máš k dispozici prostřednictvím proměnné nested_html (načtené pomocí read_html()).

Instrukce 1/2

undefined XP
  • 1
    • V prvním pokusu použij pseudo-třídu, která vybírá poslední potomky, a získej tak poslední p v každé skupině.
  • 2
    • Protože předchozí výběr zahrnul poslední uzel p z obou skupin, využij třídu text k tomu, abys získal/a pouze informaci o autorství.