Un estrattore di contenuti

Negli esercizi precedenti hai verificato che tutti gli elementi del vettore di URL fornito restituiscono un codice di stato 200. Ora che sai che sono accessibili, puoi approfondire lo scraping web estraendo dei contenuti.

Per farlo useremo funzioni del pacchetto rvest, che verranno precompilate con partial(). Le funzioni che scriverai in questo esercizio estrarranno tutti i nodi HTML H2 da una pagina — in una pagina web, questi nodi H2 corrispondono alle intestazioni di livello 2. Una volta estratti questi titoli, useremo la funzione html_text() per ricavare il contenuto testuale dall'HTML grezzo.

purrr e rvest sono già stati caricati per te e il vettore urls è disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

Visualizza corso

Istruzioni dell'esercizio

Inizia precompilando html_nodes() con css = "h2".
Combina questa nuova funzione tra read_html e html_text, per creare un estrattore di testo per le intestazioni H2.
Esegui questa funzione sul vettore urls e assegna un nome al risultato.
Stampa il risultato per vedere com'è.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Prefill html_nodes() with the css param set to h2
get_h2 <- ___(html_nodes, ___)

# Combine the html_text, get_h2 and read_html functions
get_content <- ___(___, ___, ___)

# Map get_content to the urls list
res <- ___(urls, ___) %>%
  set_names(___)

# Print the results to the console
___

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Funzioni lambda, mapper e predicati ti mettono soggezione? Niente paura! Dopo un rapido ripasso di purrr, entreremo nella programmazione funzionale di base, scopriremo le funzioni anonime e i predicati e vedremo come usarli per pulire ed esplorare i dati.

Exercise 1: Ripasso di base su purrr Exercise 2: Rinfreschiamo la memoria su purrr Exercise 3: Un altro ripasso di purrr Exercise 4: Introduzione ai mapper Exercise 5: Creare funzioni lambda Exercise 6: Funzioni lambda Exercise 7: Usare i mapper per ripulire i dati Exercise 8: Pulisci i tuoi dati con keep Exercise 9: Dividi con keep() e discard()Exercise 10: Predicati Exercise 11: Che cos’è un predicato?Exercise 12: Esplorare i dati con i predicati

Pronto per andare più a fondo con la programmazione funzionale e purrr? In questo capitolo scopriremo il concetto di programmazione funzionale, esploreremo la gestione degli errori includendo safely() e possibly(), e introdurremo la funzione compact() per rendere il tuo codice più pulito.

Exercise 1: Programmazione funzionale in R Exercise 2: Tutto ciò che accade è una chiamata di funzione Exercise 3: Identificare le funzioni pure Exercise 4: Strumenti per la programmazione funzionale in purrr Exercise 5: Iterazioni sicure Exercise 6: Crea una funzione Exercise 7: Usare possibly()Exercise 8: Una versione possibly() di read_lines()Exercise 9: Tutto in un'unica chiamata Exercise 10: Gestire i risultati degli avverbi Exercise 11: Perfezioniamo la nostra funzione Exercise 12: Estrarre i codici di stato con GET()

In questo capitolo useremo purrr per scrivere codice più chiaro, pulito e facile da mantenere. Impareremo a scrivere funzioni pulite con compose() e negate(). Useremo anche partial() per comporre funzioni "precompilando" gli argomenti a partire da funzioni esistenti. Infine, introdurremo le list-column, una struttura dati comoda che ci aiuta a scrivere codice pulito usando il Tidyverse.

Exercise 1: Perché scrivere codice più pulito?Exercise 2: Come scrivere compose()Exercise 3: Ritorno in ufficio Exercise 4: Creare funzioni con compose() e negate()Exercise 5: Crea una funzione Exercise 6: Conta gli NA Exercise 7: Precompilare le funzioni Exercise 8: Un estrattore di contenuti

Esercizio attuale

Exercise 9: Un altro estrattore Exercise 10: Colonne lista Exercise 11: Le list-column Exercise 12: Crea un data.frame con una list-column

Concluderemo tutto ciò che sappiamo su purrr con un caso di studio. Qui useremo purrr per analizzare dati raccolti da Twitter. Useremo codice pulito per organizzare i dati e poi identificheremo gli influencer su Twitter della conferenza RStudio 2018.

Exercise 1: Esplorare l'insieme di dati Exercise 2: Giochiamo con i tweet, round 1 Exercise 3: Identificare i profili Exercise 4: Estrazione di informazioni dall'insieme di dati Exercise 5: Contare i preferiti Exercise 6: Estrazione delle mention Exercise 7: Manipolare gli URL Exercise 8: Analizzare gli URL Exercise 9: Giochiamo con gli URL Exercise 10: Identificare gli influencer Exercise 11: Suddividere l'insieme di dati Exercise 12: Abbiamo un vincitore!Exercise 13: Congratulazioni!