Aan de slagBegin gratis

Zet een tabel om in een data frame met html_table()

Als een tabel een koprij heeft (met th-elementen) en geen lege cellen, is scrapen eenvoudig, zoals bij de volgende tabel (met ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Hier is dezelfde tabel (met ID "dirty") zonder een aangewezen koprij en met een ontbrekende cel in de eerste rij:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Voor dit soort gevallen heeft html_table() een extra argument dat je kunt gebruiken om de tabel correct te parsen, zoals in de video te zien is. Ontbrekende cellen worden automatisch herkend en vervangen door NA-waarden.

Beide tabellen staan in het document mountains_html.

Deze oefening maakt deel uit van de cursus

Webscraping in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Extract the "clean" table into a data frame 
mountains <- mountains_html %>% 
  html_element("table#clean") %>% 
  ___

mountains
Code bewerken en uitvoeren