Zet een tabel om in een data frame met html_table()
Als een tabel een koprij heeft (met th-elementen) en geen lege cellen, is scrapen eenvoudig, zoals bij de volgende tabel (met ID "clean"):
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Hier is dezelfde tabel (met ID "dirty") zonder een aangewezen koprij en met een ontbrekende cel in de eerste rij:
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Voor dit soort gevallen heeft html_table() een extra argument dat je kunt gebruiken om de tabel correct te parsen, zoals in de video te zien is. Ontbrekende cellen worden automatisch herkend en vervangen door NA-waarden.
Beide tabellen staan in het document mountains_html.
Deze oefening maakt deel uit van de cursus
Webscraping in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains