LoslegenKostenlos starten

Hyperlinks in ein Data Frame parsen

Sieh dir die folgende ul-Liste mit „nützlichen Links“ an.

Sie besteht aus drei li-Elementen, die wiederum a-Elemente mit den Links enthalten:


Helpful links

Compiled with help from Google.


Der entsprechende HTML-Code steht dir als String in hyperlink_raw_html zur Verfügung.

In dieser Übung parsest du diese Links in ein R-Data-Frame, indem du nur a-Elemente auswählst, die innerhalb von li-Elementen stehen.

PS: Dafür verwendest du tibble(), eine Funktion aus dem Tidyverse. tibble() ist im Grunde eine abgespeckte Version von data.frame(), das du sicher schon kennst. Genau wie bei data.frame() gibst du Spaltennamen und Daten als Paare aus Spaltennamen und Werten an, zum Beispiel so:

my_tibble <- tibble(
  column_name_1 = value_1,
  column_name_2 = value_2,
  ...
)

Diese Übung ist Teil des Kurses

<Kurs>Web Scraping in R</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Extract all the a nodes from the bulleted list
links <- hyperlink_raw_html %>% 
  read_html() %>% 
  html_elements('li ___')
Code bearbeiten und ausführen