Aan de slagGa gratis aan de slag

Zet een tabel om in een data frame met html_table()

Als een tabel een koprij heeft (met th-elementen) en geen lege cellen, is scrapen eenvoudig, zoals bij de volgende tabel (met ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Hier is dezelfde tabel (met ID "dirty") zonder een aangewezen koprij en met een ontbrekende cel in de eerste rij:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Voor dit soort gevallen heeft html_table() een extra argument dat je kunt gebruiken om de tabel correct te parsen, zoals in de video te zien is. Ontbrekende cellen worden automatisch herkend en vervangen door NA-waarden.

Beide tabellen staan in het document mountains_html.

Deze oefening maakt deel uit van de cursus

Webscraping in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Extract the "clean" table into a data frame 
mountains <- mountains_html %>% 
  html_element("table#clean") %>% 
  ___

mountains
Code bewerken en uitvoeren