1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 통계 면접 문제 연습하기

Connected

연습 문제

이상치에 대한 민감도

둘 이상의 변수 관계를 분석할 때 상관관계는 훌륭한 출발점이에요. 하지만 더 흥미로운 데이터셋에서는 상관관계가 얼마나 잘 유지될까요? 특히 이상치에 대해서는 어떨까요?

이 연습 문제에서는 이상치가 포함된 데이터셋에 대해 산점도를 그리고 상관계수를 계산한 뒤, 이상치를 제거하고 무엇이 달라지는지 확인해 봅니다. 마지막에는 상관관계가 어떻게 작동하는지 살펴보고 언제, 어디에서 사용해야 하는지 결론을 내려 보세요.

유명한 Anscombe's quartet의 예시 데이터셋이 df 변수로 미리 불러와져 있으며, 이 장에서 사용했던 모든 패키지도 준비되어 있어요.

지침 1/3

undefined XP
    1
    2
    3
  • X와 Y 특성에 대한 matplotlib 산점도를 표시하세요. 오른쪽 위의 이상치를 확인해 보세요.