IniziaInizia gratis

Un estrattore di contenuti

Negli esercizi precedenti hai verificato che tutti gli elementi del vettore di URL fornito restituiscono un codice di stato 200. Ora che sai che sono accessibili, puoi approfondire lo scraping web estraendo dei contenuti.

Per farlo useremo funzioni del pacchetto rvest, che verranno precompilate con partial(). Le funzioni che scriverai in questo esercizio estrarranno tutti i nodi HTML H2 da una pagina — in una pagina web, questi nodi H2 corrispondono alle intestazioni di livello 2. Una volta estratti questi titoli, useremo la funzione html_text() per ricavare il contenuto testuale dall'HTML grezzo.

purrr e rvest sono già stati caricati per te e il vettore urls è disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

Visualizza il corso

Istruzioni dell'esercizio

  • Inizia precompilando html_nodes() con css = "h2".

  • Combina questa nuova funzione tra read_html e html_text, per creare un estrattore di testo per le intestazioni H2.

  • Esegui questa funzione sul vettore urls e assegna un nome al risultato.

  • Stampa il risultato per vedere com'è.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Prefill html_nodes() with the css param set to h2
get_h2 <- ___(html_nodes, ___)

# Combine the html_text, get_h2 and read_html functions
get_content <- ___(___, ___, ___)

# Map get_content to the urls list
res <- ___(urls, ___) %>%
  set_names(___)

# Print the results to the console
___
Modifica ed esegui il codice