Wandle eine Tabelle mit html_table() in ein Data Frame um
Wenn eine Tabelle eine Kopfzeile (mit th-Elementen) und keine Lücken hat, ist das Scrapen unkompliziert – wie bei der folgenden Tabelle (mit der ID "clean"):
| Mountain | Height | First ascent | Country |
|---|---|---|---|
| Mount Everest | 8848 | 1953 | Nepal, China |
| ... |
Hier ist dieselbe Tabelle (mit der ID "dirty") ohne ausgewiesene Kopfzeile und mit einer fehlenden Zelle in der ersten Zeile:
| Mountain | Height | First ascent | Country |
| Mount Everest | 8848 | 1953 | |
| ... |
Für solche Fälle hat html_table() ein zusätzliches Argument, mit dem du die Tabelle korrekt parsen kannst, wie im Video gezeigt. Fehlende Zellen werden automatisch erkannt und durch NA-Werte ersetzt.
Beide Tabellen befinden sich im Dokument mountains_html.
Diese Übung ist Teil des Kurses
Web Scraping in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Extract the "clean" table into a data frame
mountains <- mountains_html %>%
html_element("table#clean") %>%
___
mountains