외부 데이터셋으로부터의 RDD

PySpark는 HDFS(Hadoop Distributed File System), Amazon S3 버킷 등과 같은 외부 스토리지에 저장된 파일로부터 손쉽게 RDD를 만들 수 있어요. 하지만 가장 일반적인 방법은 로컬 파일 시스템에 저장된 파일로부터 RDD를 생성하는 것입니다. 이 방법은 파일 경로를 입력으로 받아 파일을 줄 단위의 컬렉션으로 읽어들입니다. 이번 연습에서는 작업 공간에 이미 준비된 파일 이름 README.md의 파일 경로(file_path)로부터 RDD를 만들어 보겠습니다.

작업 공간에는 이미 SparkContext sc가 준비되어 있다는 점을 기억하세요.