LoslegenKostenlos starten

Wandle eine Tabelle mit html_table() in ein Data Frame um

Wenn eine Tabelle eine Kopfzeile (mit th-Elementen) und keine Lücken hat, ist das Scrapen unkompliziert – wie bei der folgenden Tabelle (mit der ID "clean"):

Mountain Height First ascent Country
Mount Everest 8848 1953 Nepal, China
...

Hier ist dieselbe Tabelle (mit der ID "dirty") ohne ausgewiesene Kopfzeile und mit einer fehlenden Zelle in der ersten Zeile:

Mountain Height First ascent Country
Mount Everest 8848 1953
...

Für solche Fälle hat html_table() ein zusätzliches Argument, mit dem du die Tabelle korrekt parsen kannst, wie im Video gezeigt. Fehlende Zellen werden automatisch erkannt und durch NA-Werte ersetzt.

Beide Tabellen befinden sich im Dokument mountains_html.

Diese Übung ist Teil des Kurses

<Kurs>Web Scraping in R</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Extract the "clean" table into a data frame 
mountains <- mountains_html %>% 
  html_element("table#clean") %>% 
  ___

mountains
Code bearbeiten und ausführen