1. Учиться
  2. /
  3. Courses
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

Exercise

Corr() 사용하기

‘상관관계가 인과관계를 의미하지는 않는다’는 말은 중요한 경고예요. 그렇지만 상관관계는 모델에 사용할 유망한 특성을 어디서부터 찾아봐야 할지 방향을 잡는 데 도움이 됩니다. 이번 연습에서는 데이터를 처음 탐색한다는 느낌으로, 패턴을 찾아보는 과정을 익혀 보세요.

열 이름을 담은 columns 리스트가 미리 준비되어 있습니다. 이 연습에서는 해당 열들과 'SALESCLOSEPRICE' 간의 상관관계를 계산하고, 그중 최댓값을 찾아보겠습니다.

Инструкции

100 XP
  • for 루프를 사용해 columns를 순회하세요.
  • 각 루프마다 현재 열과 'SALESCLOSEPRICE'의 상관관계를 corr() 메서드로 계산하세요.
  • 관측된 최대 상관계수와 그에 해당하는 열을 갱신하는 로직을 작성하세요.
  • 'SALESCLOSEPRICE'와 상관관계가 가장 큰 열 이름을 출력하세요.