1. Learn
  2. /
  3. Courses
  4. /
  5. Funkcyjne programowanie średnio zaawansowane z purrr

Connected

Exercise

Identyfikowanie profili

Nadal pracujemy nad eksploracją naszego zbioru danych z tweetami. Elementy te są zawarte w zagnieżdżonej liście 5055 podlist, którą przeglądamy za pomocą purrr.

W tym ćwiczeniu odpowiemy na pytanie dotyczące zachowań użytkowników: ilu z nich tylko retweetuje, nie publikując żadnych „oryginalnych treści"? Popularna zasada na Twitterze mówi, że około 80% użytkowników tylko retweetuje, a 20% tworzy własne treści – zgodnie z prawem Pareto. Sprawdzimy to w tym ćwiczeniu.

W tym celu podzielimy nasz zbiór danych na dwie części, a następnie policzymy łączną liczbę użytkowników oraz ilu z nich należy wyłącznie do grupy „tylko retweety".

purrr jest już załadowany, a lista rstudioconf jest nadal dostępna w twoim środowisku pracy.

Instructions

100 XP
  • Utwórz podlistę retweetów, wyodrębnij element user_id i usuń duplikaty za pomocą unique().

  • Utwórz podlistę oryginalnych tweetów, wyodrębnij element user_id i usuń duplikaty za pomocą unique().

  • Połącz funkcje union() (z bazowego R) i length(), aby poznać łączną liczbę użytkowników.

  • Użyj funkcji setdiff() (z bazowego R), aby wyodrębnić użytkowników należących wyłącznie do podlisty retweetów.