1. Nauka
  2. /
  3. Kursy
  4. /
  5. Web Scraping w R

Connected

ćwiczenie

Wybieranie ostatniego elementu potomnego za pomocą pseudoklasy

W poniższym kodzie HTML, gdzie autor tekstu umieszczony jest w ostatnim akapicie, znajdziesz dwie grupy węzłów p:

<html>
  <body>
    <div>
      <p class = 'text'>A sophisticated text [...]</p>
      <p class = 'text'>Another paragraph following [...]</p>
      <p class = 'text'>Author: T.G.</p>
    </div>
    <p>Copyright: DC</p>
  </body>
</html>

W tym ćwiczeniu twoim zadaniem jest wybranie ostatniego węzła p wewnątrz elementu div.

Jak pokazano w filmie, pseudoklasy przydają się wtedy, gdy nie masz innych sposobów na wskazanie konkretnego węzła strony – na przykład przez selektor ID lub unikalną klasę.

Powyższy dokument HTML jest dostępny za pośrednictwem zmiennej nested_html (wczytanej już funkcją read_html()).

Instrukcje 1/2

undefined XP
  • 1
    • W pierwszym podejściu użyj pseudoklasy wybierającej ostatni element potomny, aby pobrać ostatni p z każdej grupy.
  • 2
    • Ponieważ powyższe rozwiązanie wybrało ostatni węzeł p z obu grup, skorzystaj z klasy text, aby pobrać wyłącznie informację o autorstwie.