1. Nauka
  2. /
  3. Kursy
  4. /
  5. Funkcyjne programowanie średnio zaawansowane z purrr

Connected

ćwiczenie

Kolejny ekstraktor

W poprzednim ćwiczeniu zbudowaliśmy funkcję, która potrafiła wyodrębniać treść tekstową z nagłówków H2.

Tutaj spróbujemy czegoś innego: chcemy wyodrębnić wszystkie linki istniejące na danej stronie. W tym celu wywołamy dwie funkcje z pakietu httr: html_nodes() z argumentem css ustawionym na "a" (a to tag HTML dla linków) oraz html_attr(), która wyodrębnia wskazany atrybut z węzła — w naszym przypadku będzie to "href", czyli adres linku.

Pakiety purrr i rvest są już wczytane. Wektor urls nadal jest dostępny w twoim środowisku.

Instrukcje

100 XP
  • Wypełnij wstępnie funkcję html_nodes(), ustawiając argument css na "a".

  • Utwórz funkcję href() jako wstępnie wypełnioną wersję html_attr().

  • Skomponuj nowe połączenie funkcji href(), get_a() i read_html().

  • Zastosuj tę nową funkcję na wektorze urls za pomocą map.