Comece agoraComece grátis

Selecionar diretamente do elemento pai com text() do XPATH

Neste exercício, você vai trabalhar com a mesma tabela. Desta vez, você vai extrair as informações de função que estão entre parênteses para uma coluna própria, então precisa extrair um data frame com não duas, mas três colunas: atores, papéis e funções.

Para fazer isso, você vai usar a função específica do XPATH apresentada no vídeo em vez de html_table(), que muitas vezes não funciona na prática quando o elemento table do HTML não está bem estruturado, como é o caso aqui.

Para sua referência, segue novamente um trecho do HTML da tabela:

<table>
 <tr>
  <th>Actor</th>
  <th>Role</th>
 </tr>
 <tr>
  <td class = 'actor'>Jayden Carpenter</td>
  <td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
 </tr>
 ...
</table>

Neste exercício, a variável roles_html contém o documento HTML com seu elemento table.

Este exercicio faz parte do curso

Web Scraping em R

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Extract the actors in the cells having class "actor"
actors <- roles_html %>% 
  html_elements(xpath = '//table//td[@class = "actor"]') %>%
  html_text()
actors

# Extract the roles in the cells having class "role"
roles <- roles_html %>% 
  html_elements(xpath = '//table//td[@class = "___"]/___') %>% 
  ___()
roles
Editar e Executar Código