Zet een tabel om in een data frame met html_table()

Als een tabel een koprij heeft (met th-elementen) en geen lege cellen, is scrapen eenvoudig, zoals bij de volgende tabel (met ID "clean"):

Mountain	Height	First ascent	Country
Mount Everest	8848	1953	Nepal, China
...

Hier is dezelfde tabel (met ID "dirty") zonder een aangewezen koprij en met een ontbrekende cel in de eerste rij:

Mountain	Height	First ascent	Country
Mount Everest	8848	1953
...

Voor dit soort gevallen heeft html_table() een extra argument dat je kunt gebruiken om de tabel correct te parsen, zoals in de video te zien is. Ontbrekende cellen worden automatisch herkend en vervangen door NA-waarden.

Beide tabellen staan in het document mountains_html.

Deze oefening maakt deel uit van de cursus

Webscraping in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Extract the "clean" table into a data frame 
mountains <- mountains_html %>% 
  html_element("table#clean") %>% 
  ___

mountains

Code bewerken en uitvoeren