1. 학습
  2. /
  3. 강의
  4. /
  5. ggplot2로 시작하는 데이터 시각화

Connected

연습 문제

오버플로팅 1: 대규모 데이터셋

산점도(geom_point() 사용)는 직관적이고 이해하기 쉬우며 매우 흔하지만, 다음 네 가지 상황에서는 오버플로팅을 항상 고려해야 합니다.

  1. 대규모 데이터셋
  2. 하나의 축에 값이 정렬된 경우
  3. 정밀도가 낮은 데이터
  4. 정수형 데이터

일반적으로, 채워진 도형을 사용할 때는 alpha 블렌딩(즉, 투명도 추가)을 권장합니다. 또는 불투명한 속이 빈 도형을 사용할 수도 있습니다.

점의 크기를 작게 하면 밀도가 높은 영역(겹침이 많은 경우)을 가진 대규모 데이터셋에 적합합니다.

이제 diamonds 데이터셋을 사용해 대규모 데이터셋에서의 처리 방법을 연습해 보겠습니다.

지침 1/2

undefined XP
  • 1

    베이스 플롯에 점 레이어를 추가하세요.

    • 점의 투명도를 0.5로 설정하세요.
    • 점 크기가 1픽셀인 shape = "."로 설정하세요.
  • 2

    선 윤곽선을 제거하기 위해 점 모양을 업데이트하고 shape를 16으로 설정하세요.