1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. PySpark로 데이터 정제하기

Connected

Exercises

여러 열로 분할하기

유효하지 않은 행을 DataFrame에서 제거하여 데이터를 상당 부분 정리했어요. 이제 DataFrame의 내용을 바탕으로 의미 있는 열을 생성해, 추가 변환을 수행하려고 합니다.

spark 컨텍스트와 최신 버전의 annotations_df DataFrame이 준비되어 있어요. pyspark.sql.functions는 F라는 별칭으로 사용할 수 있습니다.

คำแนะนำ

100 XP
  • 탭 문자로 '_c0' 열의 내용을 분할하고, 결과를 split_cols라는 변수에 저장하세요.
  • 위 변수의 처음 네 항목을 바탕으로 다음 열을 DataFrame split_df에 추가하세요: folder, filename, width, height.
  • split_cols 변수를 하나의 열로 추가하세요.