1. Nauka
  2. /
  3. Kursy
  4. /
  5. Web Scraping w R

Connected

ćwiczenie

Bezpośrednie pobieranie danych z elementu nadrzędnego za pomocą funkcji XPATH text()

W tym ćwiczeniu pracujesz z tą samą tabelą. Tym razem wyodrębnisz informacje o funkcji postaci (podane w nawiasach) do osobnej kolumny, więc musisz uzyskać ramkę danych z nie dwiema, lecz trzema kolumnami: aktorzy, role i funkcje.

Aby to zrobić, zastosuj konkretną funkcję XPATH, którą pokazano w filmie – zamiast html_table(), która w praktyce często nie działa, gdy element table w HTML nie jest dobrze ustrukturyzowany – tak jak ma to miejsce tutaj.

Dla przypomnienia, poniżej fragment kodu HTML tabeli:

<table>
 <tr>
  <th>Actor</th>
  <th>Role</th>
 </tr>
 <tr>
  <td class = 'actor'>Jayden Carpenter</td>
  <td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
 </tr>
 ...
</table>

W tym ćwiczeniu zmienna roles_html zawiera dokument HTML wraz z elementem table.

Instrukcje 1/2

undefined XP
    1
    2
  • Na początek wyodrębnij aktorów i role z tabeli za pomocą XPATH.