1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark 입문

Connected

연습 문제

DataFrame에 SQL로 분석하기

SQL 쿼리는 DataFrame 연산에 비해 간결하고 실행하기 쉽습니다. 하지만 DataFrame에 SQL을 적용하려면 먼저 DataFrame을 테이블처럼 사용할 수 있도록 임시 뷰를 만들고, 그 테이블에 SQL 쿼리를 적용해야 해요.

작업 공간에는 이미 SparkContext spark와 salaries_df가 준비되어 있습니다.

지침

100 XP
  • salaries_df DataFrame에서 임시 테이블 "salaries_table"을(를) 생성하세요.
  • 캐나다("CA")의 company_location에서 "job_title" 열을 추출하는 쿼리를 작성하세요.
  • SQL 쿼리를 적용해 새로운 DataFrame canada_titles를 만드세요.
  • 테이블 요약 정보를 확인하세요.