1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

프로그래밍으로 SQL 쿼리 실행하기

PySpark에서는 DataFrame을 SQL 쿼리로 쉽게 다룰 수 있어요. SparkSession의 sql() 함수는 애플리케이션이 SQL 쿼리를 프로그래밍 방식으로 실행하고, 결과를 또 다른 DataFrame으로 반환하게 해줍니다. 이번 연습에서는 앞에서 만든 DataFrame으로 임시 테이블을 만들고, 그 임시 테이블에서 사람들의 이름을 선택하는 쿼리를 작성한 뒤, 결과를 새로운 DataFrame에 할당해 보겠습니다.

워크스페이스에는 이미 SparkSession spark와 DataFrame이 준비되어 있다는 점을 기억하세요.

지침

100 XP
  • 임시 테이블 people을(를) 만드세요.
  • 임시 테이블 people에서 사람들의 이름을 선택하는 query를 작성하세요.
  • Spark의 query 결과를 새로운 DataFrame people_df_names에 할당하세요.
  • people_df_names DataFrame에서 상위 10개의 이름을 출력하세요.