Selecciona directamente desde el elemento padre con la función text() de XPATH
En este ejercicio, trabajarás con la misma tabla. Esta vez, extraerás la información de la función que aparece entre paréntesis a su propia columna, así que tendrás que obtener un data frame con no dos, sino tres columnas: actores, roles y funciones.
Para lograrlo, tendrás que usar la función específica de XPATH que se presentó en el video en lugar de html_table(), que a menudo no funciona en la práctica si el elemento table de HTML no está bien estructurado, como ocurre aquí.
Para tu referencia, aquí tienes de nuevo un extracto del HTML de la tabla:
<table>
<tr>
<th>Actor</th>
<th>Role</th>
</tr>
<tr>
<td class = 'actor'>Jayden Carpenter</td>
<td class = 'role'><em>Mickey Mouse</em> (Voice)</td>
</tr>
...
</table>
En este ejercicio, la variable roles_html contiene el documento HTML con su elemento table.
Este ejercicio forma parte del curso
Web Scraping con R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract the actors in the cells having class "actor"
actors <- roles_html %>%
html_elements(xpath = '//table//td[@class = "actor"]') %>%
html_text()
actors
# Extract the roles in the cells having class "role"
roles <- roles_html %>%
html_elements(xpath = '//table//td[@class = "___"]/___') %>%
___()
roles