1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark 입문

Connected

연습 문제

PySpark UDF에서의 정수 처리

이번 연습 문제에서는 UDF를 다루며, PySpark에서 함수를 만드는 방법을 이해하실 수 있어요! 이 작업이 데이터 정제(workflow)에서 무엇을 대체할 수 있을지 생각해 보세요.

작업 공간에는 이미 SparkSession인 spark가 준비되어 있다는 점을 기억하세요!

지침

100 XP
  • 함수 age_category를 age_category_udf라는 이름의 UDF로 등록하세요.
  • DataFrame df에 새 열 "category"를 추가하고, 나이에 따라 사람을 분류하도록 UDF를 적용하세요. age_category_udf()에 전달할 인자는 미리 제공되어 있어요.
  • 결과 DataFrame을 출력하세요.