1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 데이터 시각화 개선하기

Connected

연습 문제

범주가 너무 많을 때 다루는 방법

때로는 도표 공간이 부족한데도 한 번에 많은 데이터를 보여줘야 할 때가 있어요. 여기서는 pollution 데이터셋에서 각 도시별로 각 오염물질의 1년치 추이를 모두 보여주려 합니다. 각 오염물질의 추이는 선으로 그리며, y값은 해당 연도 평균으로부터의 표준편차를 나타냅니다. 즉, 한 번에 매우 많은 선이 그려지게 되며, 색만으로는 명확히 구분하기 어렵습니다.

이를 해결하기 위해, 도시-오염물질 조합 중 일부(wanted_combos)만 강조 표시하기로 했어요. 이 부분집합이 가장 중요하고, 나머지 추이는 비교를 위한 유용한 맥락을 제공합니다. 주의를 집중시키기 위해, 강조하지 않은 모든 선은 동일한 'other' 색으로 설정할 거예요.

지침

100 XP
  • 리스트 컴프리헨션을 수정해 원하는 도시와 오염물질 조합(wanted_combos)만 추출하세요.
  • 새로 만든 color_cats 열을 사용해 선 그래프의 색을 지정하세요.
  • units 인자를 사용해 각 선을 구성하기 위해 데이터 점들을 어떤 열 기준으로 연결할지(how) 지정하세요.
  • estimator 인자로 점의 binning을 비활성화하세요.