1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Web Scraping v R

Connected

cvičení

Zparsování hypertextových odkazů do datového rámce

Podívej se na následující seznam ul s „užitečnými odkazy".

Sestává ze tří prvků li, které zase obsahují prvky a s odkazy:


Helpful links

  • Wikipedia
  • Dictionary
  • Search Engine

Compiled with help from Google.


Odpovídající HTML kód je dostupný jako řetězec v proměnné hyperlink_raw_html.

V tomto cvičení tyto odkazy zparsujeme do datového rámce v R tak, že vybereme pouze prvky a, které se nacházejí uvnitř prvků li.

PS: Použijeme k tomu tibble(), funkci z Tidyverse. tibble() je v podstatě odlehčená verze data.frame(), kterou určitě znáš. Stejně jako u data.frame() zadáváš názvy sloupců a data jako dvojice název–hodnota:

my_tibble <- tibble(
  column_name_1 = value_1,
  column_name_2 = value_2,
  ...
)

Pokyny 1/2

undefined XP
    1
    2
  • Pomocí html_elements() extrahuj všechny uzly a, které se nacházejí uvnitř odrážkového seznamu.