1. 학습
  2. /
  3. 강의
  4. /
  5. ggplot2로 하는 중급 데이터 시각화

Connected

연습 문제

stat_sum 사용하기

Vocab 데이터셋에서 education과 vocabulary는 정수형 변수입니다. 입문 과정에서 보셨듯이, 이것은 과도한 겹침(overplotting)이 발생하는 네 가지 원인 중 하나예요. 두 변수의 교차점마다 점이 하나만 찍히게 됩니다.

1단계에서 보인 한 가지 해결책은 투명도를 주어 지터링하는 것입니다. 또 다른 해결책은 stat_sum()을 사용하는 것으로, 겹치는 관측값의 총수를 계산해 그 값을 size 미적 요소에 매핑합니다.

stat_sum()은 특수 변수 ..prop..을 사용해 데이터셋 내 값들의 비율을 표시할 수도 있습니다.

지침 1/4

undefined XP
  • 1
    • 코드를 실행해 지터링과 투명도가 과도한 겹침을 어떻게 해결하는지 확인하세요.
    • 지터링된 점을 stat_sum()을 사용한 합계 통계로 바꾸세요.
  • 2

    적절한 스케일 함수를 사용해 size 미적 요소를 수정하세요.

    • scale_size() 함수를 추가하여 range를 1에서 10으로 설정하세요.
  • 3

    stat_sum() 안에서 size를 ..prop..으로 설정해 원의 크기가 전체 데이터셋에서의 비율을 나타내도록 하세요.

  • 4

    education별로 그룹화되도록 플롯을 수정해, 원의 크기가 각 그룹 내 비율을 나타내게 하세요.