1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 데이터 정제하기

Connected

연습 문제

SQL과 Parquet

Parquet 파일은 Spark에서 SQL 쿼리를 실행할 때 훌륭한 백엔드 데이터 저장소예요. 동일한 쿼리를 Spark의 Python 함수로 직접 실행할 수도 있지만, 때로는 Python 옵션과 함께 SQL 쿼리를 사용하는 편이 더 쉬울 때가 있어요.

이번 예제에서는 지난 연습 문제에서 만든 Parquet 파일을 읽어와 SQL 테이블로 등록하겠습니다. 등록이 끝나면 테이블(즉, Parquet 파일)에 대해 간단한 쿼리를 실행해 볼 거예요.

spark 객체와 AA_DFW_ALL.parquet 파일은 이미 준비되어 있어요.

지침

100 XP
  • AA_DFW_ALL.parquet 파일을 flights_df로 불러오세요.
  • createOrReplaceTempView 메서드로 flights 테이블 이름을 할당하세요.
  • flights 테이블에 대해 Spark SQL 쿼리를 실행하세요.