1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

RDD를 DataFrame으로 변환

RDD와 마찬가지로 DataFrame도 Spark에서 변경 불가능하고 분산된 데이터 구조예요. RDD는 Spark의 기본 데이터 구조이지만, 일반적으로 DataFrame으로 작업하는 것이 RDD보다 더 쉬워요. 따라서 RDD를 DataFrame으로 변환하는 방법을 이해하는 것이 중요합니다.

이 연습에서는 먼저 이미 제공된 sample_list를 사용해 RDD를 만듭니다. 이 RDD에는 각 사람의 이름과 나이를 담은 튜플 ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) 목록이 들어 있어요. 다음으로, 이 RDD와 스키마(‘Name’과 ‘Age’의 리스트)를 사용해 DataFrame을 생성하고, 마지막으로 출력이 PySpark DataFrame인지 확인할 거예요.

작업 공간에는 이미 SparkContext sc와 SparkSession spark가 준비되어 있다는 점을 기억해 주세요.

지침

100 XP
  • sample_list에서 RDD를 생성하세요.
  • 위에서 만든 RDD와 스키마를 사용해 PySpark DataFrame을 생성하세요.
  • 결과가 PySpark DataFrame인지 확인하세요.