1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Python으로 배우는 차원 축소

Connected

Bài tập

높은 상관관계 특징 걸러내기

숫자형 ANSUR 데이터셋에서 상관관계가 매우 높은 특징을 자동으로 제거해 보겠습니다. 상관관계 행렬을 계산하고, 상관계수가 0.95보다 크거나 -0.95보다 작은 열을 걸러낼 거예요.

각 상관계수는 행렬에서 두 번 나타납니다(A와 B의 상관은 B와 A의 상관과 동일). 따라서 두 특징 중 하나만 제거되도록 상관관계 행렬의 절반은 무시해야 합니다. 이를 위해 마스크 트릭을 사용하세요.

Hướng dẫn

100 XP
  • ansur_df의 상관관계 행렬을 계산하고, 이 행렬의 절댓값을 취하세요.
  • 오른쪽 위 삼각형이 True가 되는 불리언 마스크를 만들고, 이를 상관관계 행렬에 적용하세요.
  • 상관계수 임계값을 0.95로 설정하세요.
  • DataFrame에서 to_drop에 나열된 모든 열을 삭제하세요.