1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

차이점

기존 특성을 활용해 새로운 특성을 만들어 봅시다. 미국 중서부에서는 단독 주택에 녹지를 위한 추가 부지가 있는 경우가 많아요. 이 예제에서는 'YARD_SIZE'라는 새 특성을 만들고, 이 특성이 결과 변수와 상관관계가 있는지 확인해 보겠습니다.

지침

100 XP
  • 변환 계수 acres_to_sqfeet를 곱해 ACRES를 제곱피트로 변환하고, withColumn()을 사용해 LOT_SIZE_SQFT라는 새 열을 만드세요.
  • LOT_SIZE_SQFT에서 FOUNDATIONSIZE를 빼서 YARD_SIZE라는 또 다른 새 열을 만드세요.
  • 독립 변수 YARD_SIZE, FOUNDATIONSIZE, LOT_SIZE_SQFT 각각에 대해 종속 변수 SALESCLOSEPRICE와의 corr()을 실행하세요. 새 특성이 구성 요소 중 어느 것보다 더 강한 상관관계를 보이나요?