MulaiMulai sekarang secara gratis

Menganalisis URL

Kita masih melanjutkan penjelajahan himpunan data #RStudioConf. Pada latihan ini, kita akan berfokus menganalisis URL yang terdapat dalam tweet.

URL dapat ditemukan pada elemen bernama "url_urls". Elemen "url_urls" ini berisi NULL jika tidak ada URL dalam tweet, atau sebuah list berisi satu atau lebih URL.

Kita akan mulai dengan mengekstrak semua elemen "url_urls" dari himpunan data, lalu menggabungkan purrr dan stringr untuk menghitung berapa banyak tweet yang memuat tautan ke URL terkait GitHub. Karena GitHub adalah situs populer bagi pengembang, tingginya kemunculan situs ini akan mengindikasikan komunitas pengembang yang kuat dalam himpunan data kita.

purrr dan stringr telah dimuat untuk Anda, dan himpunan data rstudioconf masih tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Pemrograman Fungsional Tingkat Menengah dengan purrr

Lihat Kursus

Petunjuk latihan

  • Ekstrak semua elemen "urls_url", lalu teruskan hasilnya ke flatten() untuk menghapus satu tingkat hierarki.

  • Hapus NULL dari hasilnya.

  • Buat sebuah mapper bernama has_github yang mendeteksi apakah sebuah string karakter memuat "github".

  • Gunakan varian map_*() untuk nilai logika dengan has_github, lalu teruskan ke sum() untuk menghitung jumlah tautan yang memuat "github".

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Extract the "urls_url" elements, and flatten() the result
urls_clean <- ___(rstudioconf, ___) %>%
  ___()

# Remove the NULL
compact_urls <- ___(___)

# Create a mapper that detects the patten "github"
has_github <- ___(~ str_detect(.x, "github"))

# Look for the "github" pattern, and sum the result
___( compact_urls, has_github ) %>%
  ___()
Edit dan Jalankan Kode