1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

사용자 지정 퍼센트 스케일링

슬라이드에서는 데이터를 0과 1 사이로 스케일링하는 방법을 보여 드렸어요. 때로는 모델링이나 표시 목적에 따라 다른 방식으로 스케일링해야 할 수도 있습니다.

지침

100 XP
  • DAYSONMARKET의 최댓값과 최솟값을 계산해 각각 변수 max_days, min_days에 저장하세요. agg() 결과에는 collect()를 사용하는 것을 잊지 마세요.
  • withColumn()을 사용해 DAYSONMARKET를 바탕으로 'percentagescaleddays'라는 새 열을 만드세요.
  • percentage_scaled_days는 0부터 100까지의 정수여야 합니다. 정수로 만들려면 round()를 사용하세요.
  • 새 열 percentage_scaled_days의 max()와 min()을 출력하세요.