Menganalisis URL
Kita masih melanjutkan penjelajahan himpunan data #RStudioConf. Pada latihan ini, kita akan berfokus menganalisis URL yang terdapat dalam tweet.
URL dapat ditemukan pada elemen bernama "url_urls". Elemen "url_urls" ini berisi NULL jika tidak ada URL dalam tweet, atau sebuah list berisi satu atau lebih URL.
Kita akan mulai dengan mengekstrak semua elemen "url_urls" dari himpunan data, lalu menggabungkan purrr dan stringr untuk menghitung berapa banyak tweet yang memuat tautan ke URL terkait GitHub. Karena GitHub adalah situs populer bagi pengembang, tingginya kemunculan situs ini akan mengindikasikan komunitas pengembang yang kuat dalam himpunan data kita.
purrr dan stringr telah dimuat untuk Anda, dan himpunan data rstudioconf masih tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Pemrograman Fungsional Tingkat Menengah dengan purrr
Petunjuk latihan
Ekstrak semua elemen
"urls_url", lalu teruskan hasilnya keflatten()untuk menghapus satu tingkat hierarki.Hapus
NULLdari hasilnya.Buat sebuah mapper bernama
has_githubyang mendeteksi apakah sebuah string karakter memuat"github".Gunakan varian
map_*()untuk nilai logika denganhas_github, lalu teruskan kesum()untuk menghitung jumlah tautan yang memuat"github".
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Extract the "urls_url" elements, and flatten() the result
urls_clean <- ___(rstudioconf, ___) %>%
___()
# Remove the NULL
compact_urls <- ___(___)
# Create a mapper that detects the patten "github"
has_github <- ___(~ str_detect(.x, "github"))
# Look for the "github" pattern, and sum the result
___( compact_urls, has_github ) %>%
___()