1. Uczyć się
  2. /
  3. Courses
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

Exercise

병렬화된 컬렉션으로부터의 RDD 생성

Resilient Distributed Dataset(RDD)는 Spark의 기본 추상화입니다. 변경 불가능한(immutable) 분산 객체 컬렉션을 의미해요. RDD는 Spark의 핵심이자 뼈대가 되는 데이터 타입이므로, 생성 방법을 이해하는 것이 중요합니다. 이 연습 문제에서는 단어 컬렉션으로부터 PySpark에서 첫 번째 RDD를 만들어 보겠습니다.

작업 공간에는 이미 SparkContext sc가 제공되어 있다는 점을 기억하세요.

Instrukcje

100 XP
  • 단어로 이루어진 Python 리스트로부터 RDD라는 이름의 RDD를 생성하세요.
  • 생성된 객체가 RDD인지 확인하세요.