1. Learn
  2. /
  3. Courses
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

Exercise

시간 구성 요소

특성 생성에서 시간 구성 요소를 다루는 능력은 중요하지만, 데이터를 더 깊이 탐색하고 이해하는 데에도 유용해요. 이번 연습에서는 요일에 따라 주택이 어떤 날에 등록되는지 패턴이 있는지 살펴보려고 해요. 참고로, PySpark에서 한 주의 시작은 일요일이며 값은 1, 끝은 토요일이며 값은 7이에요.

Instructions

100 XP
  • pyspark.sql.functions에서 to_date()와 dayofweek() 함수를 임포트하세요.
  • to_date() 함수를 사용해 LISTDATE를 Spark 날짜 타입으로 변환하고, withColumn()으로 변환된 열을 같은 이름으로 저장하세요.
  • LISTDATE와 dayofweek()를 사용해 새 열을 만들고, withColumn()으로 List_Day_of_Week라는 이름으로 저장하세요.
  • 데이터프레임의 절반을 샘플링한 뒤 toPandas()로 pandas 데이터프레임으로 변환하고, seaborn의 countplot()을 사용해 x = List_Day_of_Week로 해당 열의 빈도수를 시각화하세요.