1. Uczyć się
  2. /
  3. Courses
  4. /
  5. purrr로 배우는 중급 함수형 프로그래밍

Connected

Exercise

프로필 식별하기

트윗 데이터셋을 계속 탐색해 보겠습니다. 이 데이터는 5055개의 하위 리스트로 이루어진 중첩 리스트이며, purrr로 살펴보고 있어요.

이 연습에서는 사용자 행동과 관련된 질문에 답해 보겠습니다. 즉, “원본 콘텐츠”는 한 번도 올리지 않고 리트윗만 한 사용자가 얼마나 될까요? 트위터의 일반적인 경험칙에 따르면 파레토 법칙(Pareto's law)처럼 대략 80%는 리트윗만 하고, 20%는 직접 콘텐츠를 게시한다고 해요. 이번 연습에서 이를 확인해 보겠습니다.

이를 위해 데이터셋을 두 부분으로 나눈 다음, 전체 사용자 수와 "리트윗 전용" 그룹에만 속한 사용자 수를 세어 보겠습니다.

purrr는 미리 로드되어 있으며, 작업 공간에는 여전히 rstudioconf 리스트가 준비되어 있어요.

Instrukcje

100 XP
  • 리트윗으로 이루어진 하위 리스트를 만들고, user_id 요소를 추출한 뒤 unique()로 중복을 제거하세요.

  • 원본 트윗으로 이루어진 하위 리스트를 만들고, user_id 요소를 추출한 뒤 unique()로 중복을 제거하세요.

  • 전체 사용자 수를 알기 위해 base R의 union()과 length()를 함께 사용하세요.

  • base R의 setdiff() 함수를 사용해 리트윗 하위 리스트에만 있는 사용자들을 구하세요.