IniziaInizia gratis

Trasforma una tabella in un data frame con html_table()

Se una tabella ha una riga di intestazione (con elementi th) e nessuna lacuna, fare scraping è semplice, come con la seguente tabella (con ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Ecco la stessa tabella (con ID "dirty") senza una riga di intestazione definita e con una cella mancante nella prima riga:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Per questi casi, html_table() ha un argomento extra che puoi usare per interpretare correttamente la tabella, come mostrato nel video. Le celle mancanti vengono riconosciute automaticamente e sostituite con valori NA.

Entrambe le tabelle sono contenute nel documento mountains_html.

Questo esercizio fa parte del corso

Web scraping in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Extract the "clean" table into a data frame 
mountains <- mountains_html %>% 
  html_element("table#clean") %>% 
  ___

mountains
Modifica ed esegui il codice