1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

파트 2: DataFrame에 대한 SQL 쿼리

우리가 만든 fifa_df DataFrame에는 데이터 타입과 컬럼 이름 같은 추가 정보가 포함되어 있어요. 이러한 추가 정보 덕분에 PySpark SQL은 DataFrame에 대해 SQL 쿼리를 실행할 수 있어요. SQL 쿼리는 DataFrame 연산보다 간결하고 실행하기 쉬운 경우가 많아요. 하지만 DataFrame에 SQL 쿼리를 적용하려면 먼저 DataFrame을 테이블로 하는 임시 뷰를 만든 다음, 생성된 테이블에 SQL 쿼리를 적용해야 해요(프로그래밍 방식으로 SQL 쿼리 실행).

이 두 번째 파트에서는 fifa_df DataFrame의 임시 테이블을 만들고, 독일(Germany) 선수들의 'Age' 컬럼을 추출하는 SQL 쿼리를 실행해 볼 거예요.

작업 공간에는 이미 SparkContext spark와 fifa_df가 준비되어 있어요.

지침

100 XP
  • fifa_df DataFrame에서 임시 테이블 fifa_df_table을 생성하세요.
  • fifa_df_table에서 독일(Germany) 선수들의 "Age" 컬럼을 추출하는 "query"를 작성하세요.
  • SQL "query"를 적용해 새로운 DataFrame fifa_df_germany_age를 생성하세요.
  • 생성된 DataFrame의 기본 통계치를 계산하세요.