1. Nauka
  2. /
  3. Kursy
  4. /
  5. Funkcyjne programowanie średnio zaawansowane z purrr

Connected

ćwiczenie

Ekstraktor treści

W poprzednich ćwiczeniach ustaliłeś, że wszystkie elementy podanego wektora URL-i zwracają kod statusu 200. Skoro wiesz już, że są one dostępne, czas zagłębić się w web scraping i przejść do ekstrakcji treści.

W tym celu użyjemy funkcji z pakietu rvest, które wstępnie wypełnimy argumentami za pomocą partial(). Funkcje napisane w tym ćwiczeniu będą wyodrębniać wszystkie węzły HTML H2 ze strony — na stronie internetowej węzły H2 odpowiadają nagłówkom drugiego poziomu. Po wyodrębnieniu tych tytułów funkcja html_text() posłuży do wyciągnięcia treści tekstowej z surowego kodu HTML.

Biblioteki purrr i rvest są już wczytane, a wektor urls jest dostępny w twoim środowisku pracy.

Instrukcje

100 XP
  • Zacznij od wstępnego wypełnienia funkcji html_nodes() argumentem css = "h2".

  • Połącz nowo utworzoną funkcję z read_html i html_text, tworząc ekstraktor tekstu dla nagłówków H2.

  • Uruchom tę funkcję na wektorze urls i nadaj wynikowi nazwę.

  • Wyświetl wynik, żeby zobaczyć, jak wygląda.