1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 데이터 정제하기

Connected

연습 문제

조인으로 행 검증하기

데이터를 필터링하는 또 다른 방법은 조인을 사용해 유효하지 않은 항목을 제거하는 것입니다. 주어진 DataFrame valid_folders_df를 기준으로 폴더 이름이 예상대로인지 확인해야 합니다. DataFrame split_df는 마지막에 작업하던 대로 분리된 열들이 포함되어 있습니다.

spark 객체를 사용할 수 있고, pyspark.sql.functions는 F로 임포트되어 있습니다.

지침

100 XP
  • valid_folders_df DataFrame에서 _c0 열 이름을 folder로 바꾸세요.
  • split_df의 행 수를 세세요.
  • 두 DataFrame을 폴더 이름으로 조인하고, 결과 DataFrame의 이름을 joined_df로 지정하세요. 더 작은 DataFrame은 반드시 브로드캐스트하세요.
  • DataFrame에 남은 행 수를 확인하고 비교하세요.