1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

요일 이진화하기

이전 영상에서 주말에는 집이 매물로 나올 가능성이 매우 낮다는 것을 확인했어요. 이제 평일에 매물이 올라왔는지 여부를 나타내는 새 필드를 만들어 봅시다. 예제 데이터에는 월요일이 1.0, 일요일이 7.0으로 표시된 List_Day_of_Week 필드가 있어요. 이를 평일은 0, 주말은 1인 이진 필드로 변환해 보겠습니다. 이를 위해 pyspark의 feature transformer인 Binarizer를 사용할 수 있어요.

지침

100 XP
  • pyspark의 ml.feature 모듈에서 feature transformer Binarizer를 임포트하세요.
  • Binarizer()를 사용해 변환기를 생성하고, 1로 설정할 임계값을 금요일 이후인 5.0으로 지정한 뒤, 입력 열은 List_Day_of_Week, 출력 열은 Listed_On_Weekend으로 설정하세요.
  • transform()을 사용해 df에 binarizer 변환을 적용하세요.
  • show()로 List_Day_of_Week와 Listed_On_Weekend 열을 선택해 변환이 올바르게 수행되었는지 확인하세요.