1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

연습 문제

분할하고 폭발하기(Splitting & Exploding)

GARAGEDESCRIPTION처럼 복합 필드를 유용한 형태로 다듬는 일은 여러 단계를 거치는 작업이에요. 확장했을 때 어떤 가치를 얻을 수 있을지 미리 파악해 두면 도움이 됩니다. 이 예제에서는 문자열을 리스트 같은 배열로 변환한 뒤, 이를 explode하고 고유 값을 살펴보겠습니다.

지침

100 XP
  • pyspark.sql.functions에서 필요한 함수 split()과 explode()를 임포트하세요.
  • split()을 사용해 df['GARAGEDESCRIPTION']을 ', ' (쉼표+공백) 기준으로 분할하여 새 열 garage_list를 만드세요.
  • explode()를 사용해 df['garage_list']의 각 값마다 새 레코드를 만들고, 이를 새 열 ex_garage_list로 지정하세요.
  • distinct()로 ex_garage_list의 고유 값을 구한 뒤, 처음 100개 행을 show로 출력하되 값 표시를 위해 50자에서 잘라 보여 주세요.