연습 문제

병렬화된 컬렉션으로부터의 RDD 생성

Resilient Distributed Dataset(RDD)는 Spark의 기본 추상화입니다. 변경 불가능한(immutable) 분산 객체 컬렉션을 의미해요. RDD는 Spark의 핵심이자 뼈대가 되는 데이터 타입이므로, 생성 방법을 이해하는 것이 중요합니다. 이 연습 문제에서는 단어 컬렉션으로부터 PySpark에서 첫 번째 RDD를 만들어 보겠습니다.

작업 공간에는 이미 SparkContext sc가 제공되어 있다는 점을 기억하세요.

지침

100 XP

단어로 이루어진 Python 리스트로부터 RDD라는 이름의 RDD를 생성하세요.
생성된 객체가 RDD인지 확인하세요.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제