Transforme uma tabela em um data frame com html_table()
Se uma tabela tiver uma linha de cabeçalho (com elementos th) e não tiver lacunas, fazer o scraping é simples, como na tabela a seguir (com ID "clean"):
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Aqui está a mesma tabela (com ID "dirty"), sem uma linha de cabeçalho definida e com uma célula faltando na primeira linha:
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Para esses casos, html_table() tem um argumento extra que você pode usar para interpretar a tabela corretamente, como mostrado no vídeo. Células ausentes são reconhecidas automaticamente e substituídas por valores NA.
Ambas as tabelas estão contidas no documento mountains_html.
Este exercício faz parte do curso
Web Scraping em R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains