Trasforma una tabella in un data frame con html_table()
Se una tabella ha una riga di intestazione (con elementi th) e nessuna lacuna, fare scraping è semplice, come con la seguente tabella (con ID "clean"):
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Ecco la stessa tabella (con ID "dirty") senza una riga di intestazione definita e con una cella mancante nella prima riga:
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Per questi casi, html_table() ha un argomento extra che puoi usare per interpretare correttamente la tabella, come mostrato nel video. Le celle mancanti vengono riconosciute automaticamente e sostituite con valori NA.
Entrambe le tabelle sono contenute nel documento mountains_html.
Questo esercizio fa parte del corso
Web scraping in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains