1. 학습
  2. /
  3. 강의
  4. /
  5. purrr로 배우는 중급 함수형 프로그래밍

Connected

연습 문제

트윗 다뤄보기, 1라운드

이전 장에서 웹 에이전시의 데이터 분석가로 일하고 있었다는 점, 기억하시나요? 훌륭하게 해내셔서 새로운 프로젝트를 맡게 되었어요 ;) 이번 장에서는 새로운 형태의 데이터, 즉 JSON 출력 데이터를 분석해 볼 거예요.

엔지니어링 팀이 RStudio Conf 2018 기간에 수집한 트윗 데이터의 수집 결과물을 넘겨주었습니다. 이 데이터셋은 JSON 형식이므로, R에서 중첩 리스트로 읽어 두었어요.

먼저 이 데이터셋을 간단히 탐색해 보려 하고, 이를 위해 purrr가 큰 도움이 될 거예요. 패키지는 이미 로드되어 있고, 작업 공간에는 rstudioconf 데이터셋이 준비되어 있습니다.

주의: 전체 데이터셋을 출력하지 마세요 — datacamp 콘솔에 출력하기에는 너무 큽니다.

이 데이터는 실제 Twitter 데이터이므로, 욕설이나 불쾌감을 줄 수 있는 내용이 포함되어 있을 수 있습니다(이 연습 문제 및 이후 실제 Twitter 데이터를 사용하는 연습 문제에도 해당).

지침

100 XP
  • 리스트의 첫 번째 요소를 출력해, 내용과 구조를 대략 살펴보세요.

  • 리트윗이 아닌 원본 트윗에 집중하려 하므로, 각 하위 리스트에 들어 있는 논리형 요소 "is_retweet"을 사용해 리트윗이 아닌 항목만으로 하위 리스트를 만드세요.

  • 새 하위 리스트의 각 요소에서 "favorite_count" 요소를 추출하되, 정수에 맞는 map_* 변형 함수를 사용하세요.

  • 바로 앞 단계 결과의 중앙값을 구하세요.