ComeçarComece de graça

Selecionar diretamente do elemento pai com text() do XPATH

Neste exercício, você vai trabalhar com a mesma tabela. Desta vez, você vai extrair as informações de função que estão entre parênteses para uma coluna própria, então precisa extrair um data frame com não duas, mas três colunas: atores, papéis e funções.

Para fazer isso, você vai usar a função específica do XPATH apresentada no vídeo em vez de html_table(), que muitas vezes não funciona na prática quando o elemento table do HTML não está bem estruturado, como é o caso aqui.

Para sua referência, segue novamente um trecho do HTML da tabela:

<table>
 <tr>
  <th>Actor</th>
  <th>Role</th>
 </tr>
 <tr>
  <td class = 'actor'>Jayden Carpenter</td>
  <td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
 </tr>
 ...
</table>

Neste exercício, a variável roles_html contém o documento HTML com seu elemento table.

Este exercício faz parte do curso

Web Scraping em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Extract the actors in the cells having class "actor"
actors <- roles_html %>% 
  html_elements(xpath = '//table//td[@class = "actor"]') %>%
  html_text()
actors

# Extract the roles in the cells having class "role"
roles <- roles_html %>% 
  html_elements(xpath = '//table//td[@class = "___"]/___') %>% 
  ___()
roles
Editar e executar o código