1. Learn
  2. /
  3. Cursuri
  4. /
  5. Programare funcțională intermediară cu purrr

Connected

exercițiu

Identifică profilurile

Continuăm explorarea setului nostru de date cu tweet-uri. Elementele sunt organizate într-o listă imbricată cu 5.055 de subliste, pe care o explorăm cu ajutorul purrr.

În acest exercițiu, vom răspunde la o întrebare despre comportamentul utilizatorilor: câți utilizatori au dat doar retweet, fără să publice vreodată „conținut original"? O regulă generală pe Twitter spune că aproximativ 80% dintre utilizatori doar retweetează, în timp ce 20% publică conținut propriu, conform legii lui Pareto. Vom verifica acest lucru în exercițiul de față.

Pentru aceasta, va trebui să împărțim setul de date în două părți, să numărăm câți utilizatori există în total și câți se află exclusiv în grupul „doar retweet-uri".

purrr a fost deja încărcat, iar lista rstudioconf este disponibilă în spațiul tău de lucru.

Instrucțiuni

100 XP
  • Creează o sublistă cu retweet-urile, extrage elementul user_id și elimină duplicatele cu unique().

  • Creează o sublistă cu tweet-urile originale, extrage elementul user_id și elimină duplicatele cu unique().

  • Combină union() (din R de bază) cu length() pentru a afla numărul total de utilizatori.

  • Folosește funcția setdiff() (din R de bază) pentru a obține utilizatorii care se află doar în sublista de retweet-uri.