1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 배우는 빅데이터 기초

Connected

연습 문제

외부 데이터셋으로부터의 RDD

PySpark는 HDFS(Hadoop Distributed File System), Amazon S3 버킷 등과 같은 외부 스토리지에 저장된 파일로부터 손쉽게 RDD를 만들 수 있어요. 하지만 가장 일반적인 방법은 로컬 파일 시스템에 저장된 파일로부터 RDD를 생성하는 것입니다. 이 방법은 파일 경로를 입력으로 받아 파일을 줄 단위의 컬렉션으로 읽어들입니다. 이번 연습에서는 작업 공간에 이미 준비된 파일 이름 README.md의 파일 경로(file_path)로부터 RDD를 만들어 보겠습니다.

작업 공간에는 이미 SparkContext sc가 준비되어 있다는 점을 기억하세요.

지침

100 XP
  • PySpark 셸에서 file_path를 출력하세요.
  • file_path로부터 fileRDD라는 이름의 RDD를 생성하세요.
  • 생성한 fileRDD의 타입을 출력하세요.