Un altro estrattore

Nel precedente esercizio abbiamo costruito una funzione in grado di estrarre il contenuto testuale dagli header H2.

Qui proviamo qualcos’altro: vogliamo estrarre tutti i link presenti in una pagina specifica. Per farlo, dovremo chiamare due funzioni di httr: html_nodes(), con l’argomento css impostato a "a" (a è il tag HTML dei link), e html_attr(), che estrae un dato attributo da un nodo — nel nostro caso, l’attributo sarà "href", ovvero l’indirizzo del link.

purrr e rvest sono già caricati per te. Nel tuo workspace trovi ancora il vettore urls.

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

Visualizza corso

Istruzioni dell'esercizio

Precompila html_nodes() impostando l’argomento css a "a".
Crea la funzione href(), che sarà una versione precompilata di html_attr().
Componi una nuova combinazione di href(), get_a() e read_html().
Applica questa nuova funzione al vettore urls.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a partial version of html_nodes(), with the css param set to "a"
get_a <- ___(html_nodes, ___)

# Create href(), a partial version of html_attr()
href <- ___(___, name = "href")

# Combine href(), get_a(), and read_html()
get_links <- ___(___, ___, ___)

# Map get_links() to the urls list
res <- ___(urls, ___) %>%
  set_names(urls)

# See the result
res

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

IntermediárioNível de habilidade

4.8+

Inizia il corso gratuitamente

Funzioni lambda, mapper e predicati ti mettono soggezione? Niente paura! Dopo un rapido ripasso di purrr, entreremo nella programmazione funzionale di base, scopriremo le funzioni anonime e i predicati e vedremo come usarli per pulire ed esplorare i dati.

Exercise 1: Ripasso di base su purrr Exercise 2: Rinfreschiamo la memoria su purrr Exercise 3: Un altro ripasso di purrr Exercise 4: Introduzione ai mapper Exercise 5: Creare funzioni lambda Exercise 6: Funzioni lambda Exercise 7: Usare i mapper per ripulire i dati Exercise 8: Pulisci i tuoi dati con keep Exercise 9: Dividi con keep() e discard()Exercise 10: Predicati Exercise 11: Che cos’è un predicato?Exercise 12: Esplorare i dati con i predicati

Pronto per andare più a fondo con la programmazione funzionale e purrr? In questo capitolo scopriremo il concetto di programmazione funzionale, esploreremo la gestione degli errori includendo safely() e possibly(), e introdurremo la funzione compact() per rendere il tuo codice più pulito.

Exercise 1: Programmazione funzionale in R Exercise 2: Tutto ciò che accade è una chiamata di funzione Exercise 3: Identificare le funzioni pure Exercise 4: Strumenti per la programmazione funzionale in purrr Exercise 5: Iterazioni sicure Exercise 6: Crea una funzione Exercise 7: Usare possibly()Exercise 8: Una versione possibly() di read_lines()Exercise 9: Tutto in un'unica chiamata Exercise 10: Gestire i risultati degli avverbi Exercise 11: Perfezioniamo la nostra funzione Exercise 12: Estrarre i codici di stato con GET()

In questo capitolo useremo purrr per scrivere codice più chiaro, pulito e facile da mantenere. Impareremo a scrivere funzioni pulite con compose() e negate(). Useremo anche partial() per comporre funzioni "precompilando" gli argomenti a partire da funzioni esistenti. Infine, introdurremo le list-column, una struttura dati comoda che ci aiuta a scrivere codice pulito usando il Tidyverse.

Exercise 1: Perché scrivere codice più pulito?Exercise 2: Come scrivere compose()Exercise 3: Ritorno in ufficio Exercise 4: Creare funzioni con compose() e negate()Exercise 5: Crea una funzione Exercise 6: Conta gli NA Exercise 7: Precompilare le funzioni Exercise 8: Un estrattore di contenuti Exercise 9: Un altro estrattore

Esercizio attuale

Exercise 10: Colonne lista Exercise 11: Le list-column Exercise 12: Crea un data.frame con una list-column

Concluderemo tutto ciò che sappiamo su purrr con un caso di studio. Qui useremo purrr per analizzare dati raccolti da Twitter. Useremo codice pulito per organizzare i dati e poi identificheremo gli influencer su Twitter della conferenza RStudio 2018.

Exercise 1: Esplorare l'insieme di dati Exercise 2: Giochiamo con i tweet, round 1 Exercise 3: Identificare i profili Exercise 4: Estrazione di informazioni dall'insieme di dati Exercise 5: Contare i preferiti Exercise 6: Estrazione delle mention Exercise 7: Manipolare gli URL Exercise 8: Analizzare gli URL Exercise 9: Giochiamo con gli URL Exercise 10: Identificare gli influencer Exercise 11: Suddividere l'insieme di dati Exercise 12: Abbiamo un vincitore!Exercise 13: Congratulazioni!