추가 파싱

이 데이터셋을 이전과는 상당히 다른 형식으로 변환했지만, 아직 마무리할 작업이 남아 있어요. 이후 분석에 사용할 수 있도록 컬럼 데이터를 준비하고, 중간 단계에서 사용했던 몇몇 컬럼을 제거해야 합니다.

spark 컨텍스트를 사용할 수 있고, pyspark.sql.functions는 F로 별칭이 지정되어 있어요. pyspark.sql.types의 타입들은 이미 import되어 있습니다. split_df DataFrame은 이전 단계에서 작업한 상태 그대로예요. 콘솔 영역에서 DataFrame에 대해 .printSchema()를 호출하면 컬럼 이름과 타입을 확인할 수 있다는 점을 기억해 주세요.

⚠️ 참고: AttributeError가 보이면, 연습 문제를 새로 고친 뒤 Run Solution을 클릭하세요. 이때 코드 실행은 클릭하지 마세요.