ComeçarComece de graça

Transforme uma tabela em um data frame com html_table()

Se uma tabela tiver uma linha de cabeçalho (com elementos th) e não tiver lacunas, fazer o scraping é simples, como na tabela a seguir (com ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Aqui está a mesma tabela (com ID "dirty"), sem uma linha de cabeçalho definida e com uma célula faltando na primeira linha:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Para esses casos, html_table() tem um argumento extra que você pode usar para interpretar a tabela corretamente, como mostrado no vídeo. Células ausentes são reconhecidas automaticamente e substituídas por valores NA.

Ambas as tabelas estão contidas no documento mountains_html.

Este exercício faz parte do curso

Web Scraping em R

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Extract the "clean" table into a data frame 
mountains <- mountains_html %>% 
  html_element("table#clean") %>% 
  ___

mountains
Editar e executar o código