1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 네트워크 데이터 기반 Predictive Analytics

Connected

연습 문제

상관된 변수

이 연습 문제에서는 상관된 변수를 중심으로 데이터셋을 점검해 보겠습니다. 특히 로지스틱 회귀처럼 이진 분류기를 적용하기 전에 이러한 변수를 제거하는 것이 중요합니다. 두 개 이상의 변수가 높은 상관을 보이면 하나만 남기고 나머지는 제거해야 해요.

먼저 corrplot 패키지의 corrplot() 함수를 사용해 상관관계를 시각화하겠습니다. 상관행렬 플롯에서 파란색은 양의 상관, 빨간색은 음의 상관을 의미합니다. 색이 진할수록 상관이 높다는 뜻입니다. 마지막으로 데이터셋에서 높은 상관을 가진 변수를 제거하겠습니다.

지침 1/2

undefined XP
    1
    2
  • corrplot 패키지를 불러오세요.
  • cor() 함수를 사용해 상관행렬 M을 생성하세요. 이 함수에는 데이터셋의 부분집합을 인수로 전달합니다.
  • corrplot()과 M을 사용해 변수들 간의 상관을 시각화하세요.