Aan de slagGa gratis aan de slag

Een content-extractor

In de vorige oefeningen heb je vastgesteld dat alle elementen uit de vector URLs die je kreeg de statuscode 200 retourneren. Nu je weet dat ze bereikbaar zijn, ga je dieper in op webscraping door content te extraheren.

Daarvoor gebruiken we functies uit het pakket rvest, die we vooraf invullen met partial(). De functies die we in deze oefening schrijven, halen alle H2-HTML-nodes van een pagina op — op een webpagina komen deze H2-nodes overeen met koppen van niveau 2. Als we deze titels hebben geëxtraheerd, gebruiken we de functie html_text() om de tekstinhoud uit de ruwe HTML te halen.

purrr en rvest zijn voor je geladen en de vector urls is beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Gevorderd functioneel programmeren met purrr

Cursus bekijken

Oefeninstructies

  • Begin met het vooraf invullen van html_nodes() met css = "h2".

  • Combineer deze nieuw gemaakte functie tussen read_html en html_text om een tekstreekstractor voor H2-koppen te maken.

  • Voer deze functie uit op de vector urls en sla het resultaat op met een naam.

  • Print het resultaat om te zien hoe het eruitziet.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Prefill html_nodes() with the css param set to h2
get_h2 <- ___(html_nodes, ___)

# Combine the html_text, get_h2 and read_html functions
get_content <- ___(___, ___, ___)

# Map get_content to the urls list
res <- ___(urls, ___) %>%
  set_names(___)

# Print the results to the console
___
Code bewerken en uitvoeren