1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Funkcyjne programowanie średnio zaawansowane z purrr

Connected

Exercise

Analiza adresów URL

Kontynuujemy eksplorację zbioru danych #RStudioConf. W tym ćwiczeniu skupimy się na analizie adresów URL zawartych w tweetach.

Adresy URL znajdują się w elemencie o nazwie "url_urls". Elementy "url_urls" zawierają albo NULL, jeśli tweet nie miał żadnego URL-a, albo listę jednego lub więcej adresów.

Zaczniemy od wyodrębnienia wszystkich elementów "url_urls" ze zbioru danych, a następnie połączymy purrr z stringr, aby policzyć, ile tweetów zawiera link do adresu URL związanego z GitHubem. Ponieważ GitHub jest popularnym serwisem wśród programistów, wysoka częstotliwość jego występowania wskaże na silną społeczność developerów w naszym zbiorze danych.

Biblioteki purrr i stringr są już wczytane, a zbiór danych rstudioconf jest nadal dostępny w twoim środowisku.

Instrukcje

100 XP
  • Wyodrębnij wszystkie elementy "urls_url" i przekaż wynik do funkcji flatten(), aby usunąć jeden poziom zagnieżdżenia.

  • Usuń wartości NULL z wyników.

  • Utwórz mapper o nazwie has_github, który wykrywa, czy ciąg znaków zawiera "github".

  • Użyj wariantu map_*() zwracającego wartości logiczne wraz z has_github, a wynik przekaż do funkcji sum(), aby policzyć liczbę linków zawierających "github".