1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

SparkSession 생성하기

이 연습 문제에서는 사용 가능한 모든 코어를 활용해 로컬 Spark 클러스터를 실행해 보세요. 클러스터에는 SparkSession 객체를 통해 접근할 수 있어요.

SparkSession 클래스에는 builder 속성이 있으며, 이는 Builder 클래스의 인스턴스예요. Builder 클래스는 다음을 할 수 있는 세 가지 중요한 메서드를 제공해요.

  • 마스터 노드의 위치를 지정하고,
  • 애플리케이션 이름을 설정하며(선택 사항),
  • 기존 SparkSession을 가져오거나 없으면 새로 생성해요.

SparkSession 클래스에는 Spark의 버전을 알려주는 version 속성이 있어요. 참고: 버전은 pyspark 모듈의 __version__ 속성으로도 확인할 수 있어요.

SparkSession에 대해 더 알아보려면 여기를 참고하세요.

작업을 마치면 클러스터를 종료하는 것이 좋아요. 이렇게 하면 자원을 해제하여 다른 프로세스가 사용할 수 있게 돼요.

참고 사항:

  1. IPython Shell 옆의 슬라이드 패널에서 레슨 슬라이드를 다시 보면 도움이 될 수 있어요.
  2. 이 연습 문제에서 사용하는 Spark 버전은 레슨과는 동일하지 않아요. 연습용 플랫폼은 더 최신 버전의 Spark로 업데이트되어 있어요.

지침

100 XP
  • pyspark.sql에서 SparkSession 클래스를 임포트하세요.
  • 로컬 클러스터에 연결된 SparkSession 객체를 생성하세요. 사용 가능한 모든 코어를 사용하고, 애플리케이션 이름은 'test'로 지정하세요.
  • 클러스터에서 실행 중인 Spark의 버전을 확인하려면 SparkSession 객체의 version 속성을 사용하세요. 참고: 프레젠테이션에서 사용된 버전과 다를 수 있어요(수시로 업데이트됩니다).
  • 클러스터를 종료하세요.