Convierte una tabla en un data frame con html_table()
Si una tabla tiene una fila de encabezado (con elementos th) y no tiene huecos, extraerla es sencillo, como en la siguiente tabla (con ID "clean"):
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Aquí tienes la misma tabla (con ID "dirty") sin una fila de encabezado definida y con una celda faltante en la primera fila:
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Para estos casos, html_table() tiene un argumento adicional que puedes usar para analizar la tabla correctamente, como se muestra en el vídeo. Las celdas faltantes se reconocen automáticamente y se reemplazan por valores NA.
Ambas tablas están contenidas en el documento mountains_html.
Este ejercicio forma parte del curso
Web Scraping con R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains