IniziaInizia gratis

Analizzare gli URL

Stiamo ancora esplorando il dataset di #RStudioConf. In questo esercizio ci concentriamo sull’analisi degli URL contenuti nei tweet.

Gli URL si trovano in un elemento chiamato "url_urls". Questi elementi "url_urls" contengono NULL se nel tweet non c’era alcun URL, oppure una lista con uno o più URL.

Inizieremo estraendo tutti gli elementi "url_urls" dal dataset, poi combineremo purrr e stringr per contare quanti tweet contengono un link a un URL relativo a GitHub. Dato che GitHub è un sito molto usato dagli sviluppatori, un’alta presenza di questo sito indicherà una forte comunità di developer nel nostro insieme di dati.

purrr e stringr sono già stati caricati per te e il dataset rstudioconf è ancora disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

Visualizza il corso

Istruzioni dell'esercizio

  • Estrai tutti gli elementi "urls_url" e passa il risultato a flatten() per rimuovere un livello di gerarchia.

  • Rimuovi i NULL dai risultati.

  • Crea un mapper chiamato has_github, che rilevi se una stringa di caratteri contiene "github".

  • Usa la variante map_*() per i valori logici con has_github e passala a sum() per contare il numero di link che contengono "github".

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Extract the "urls_url" elements, and flatten() the result
urls_clean <- ___(rstudioconf, ___) %>%
  ___()

# Remove the NULL
compact_urls <- ___(___)

# Create a mapper that detects the patten "github"
has_github <- ___(~ str_detect(.x, "github"))

# Look for the "github" pattern, and sum the result
___( compact_urls, has_github ) %>%
  ___()
Modifica ed esegui il codice