Ekstraktor treści

W poprzednich ćwiczeniach ustaliłeś, że wszystkie elementy podanego wektora URL-i zwracają kod statusu 200. Skoro wiesz już, że są one dostępne, czas zagłębić się w web scraping i przejść do ekstrakcji treści.

W tym celu użyjemy funkcji z pakietu rvest, które wstępnie wypełnimy argumentami za pomocą partial(). Funkcje napisane w tym ćwiczeniu będą wyodrębniać wszystkie węzły HTML H2 ze strony — na stronie internetowej węzły H2 odpowiadają nagłówkom drugiego poziomu. Po wyodrębnieniu tych tytułów funkcja html_text() posłuży do wyciągnięcia treści tekstowej z surowego kodu HTML.

Biblioteki purrr i rvest są już wczytane, a wektor urls jest dostępny w twoim środowisku pracy.

Zacznij od wstępnego wypełnienia funkcji html_nodes() argumentem css = "h2".
Połącz nowo utworzoną funkcję z read_html i html_text, tworząc ekstraktor tekstu dla nagłówków H2.
Uruchom tę funkcję na wektorze urls i nadaj wynikowi nazwę.
Wyświetl wynik, żeby zobaczyć, jak wygląda.

ćwiczenie

Ekstraktor treści

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie