1. 학습
  2. /
  3. 강의
  4. /
  5. Seaborn으로 시작하는 데이터 시각화

Connected

연습 문제

이상치 생략하기

이제 student_data 데이터세트를 사용해, 집에 인터넷이 있는 학생과 없는 학생 간의 최종 성적("G3") 분포를 비교해 보겠습니다. 이를 위해 학생이 집에서 인터넷을 사용할 수 있는지를 나타내는 이진(예/아니요) 변수인 "internet"을 사용하겠습니다.

인터넷은 농촌 지역에서 접근성이 낮을 수 있으므로, 학생이 사는 지역에 따라 하위 그룹을 추가해 보겠습니다. 이를 위해 학생이 도시("Urban")에 사는지 농촌("Rural")에 사는지를 나타내는 "location" 변수를 사용할 수 있습니다.

Seaborn은 이미 sns로, matplotlib.pyplot은 plt로 임포트되어 있습니다. 참고로, 박스 플롯에서 이상치를 생략하려면 showfliers=False로 설정하면 됩니다.

지침

100 XP
  • sns.catplot()을 사용해 student_data DataFrame으로 박스 플롯을 만들고, x축에는 "internet", y축에는 "G3"를 두세요.
  • 각 박스 플롯이 "location"에 따라 색이 달라지도록 하위 그룹을 추가하세요.
  • 이상치를 표시하지 마세요.