1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 데이터 정제하기

Connected

연습 문제

잘못된 행 살펴보기

조인을 통해 행을 성공적으로 걸러냈지만, 때로는 유효하지 않은 데이터를 직접 확인하고 싶을 때가 있어요. 이런 데이터는 나중에 처리하거나 데이터 소스를 문제 해결할 때 활용할 수 있습니다.

두 개의 DataFrame 간 차이를 찾아 유효하지 않은 행을 저장하려고 합니다.

spark 객체가 정의되어 있고 pyspark.sql.functions는 F로 임포트되어 있어요. 원본 DataFrame split_df와 조인된 DataFrame joined_df는 이전 상태 그대로 사용할 수 있습니다.

지침

100 XP
  • 각 DataFrame의 행 수를 확인하세요.
  • 유효하지 않은 행만 포함하는 DataFrame을 만드세요.
  • 새 DataFrame의 개수가 예상과 일치하는지 검증하세요.
  • 제거된 폴더 행의 고유 개수를 구하세요.