Un estrattore di contenuti
Negli esercizi precedenti hai verificato che tutti gli elementi del vettore di URL fornito restituiscono un codice di stato 200. Ora che sai che sono accessibili, puoi approfondire lo scraping web estraendo dei contenuti.
Per farlo useremo funzioni del pacchetto rvest, che verranno precompilate con partial(). Le funzioni che scriverai in questo esercizio estrarranno tutti i nodi HTML H2 da una pagina — in una pagina web, questi nodi H2 corrispondono alle intestazioni di livello 2. Una volta estratti questi titoli, useremo la funzione html_text() per ricavare il contenuto testuale dall'HTML grezzo.
purrr e rvest sono già stati caricati per te e il vettore urls è disponibile nel tuo workspace.
Questo esercizio fa parte del corso
Programmazione funzionale intermedia con purrr
Istruzioni dell'esercizio
Inizia precompilando
html_nodes()concss = "h2".Combina questa nuova funzione tra
read_htmlehtml_text, per creare un estrattore di testo per le intestazioniH2.Esegui questa funzione sul vettore
urlse assegna un nome al risultato.Stampa il risultato per vedere com'è.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Prefill html_nodes() with the css param set to h2
get_h2 <- ___(html_nodes, ___)
# Combine the html_text, get_h2 and read_html functions
get_content <- ___(___, ___, ___)
# Map get_content to the urls list
res <- ___(urls, ___) %>%
set_names(___)
# Print the results to the console
___