1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nền tảng Big Data với PySpark

Connected

Bài tập

RDD từ tập dữ liệu bên ngoài

PySpark có thể dễ dàng tạo RDD từ các tệp lưu trên thiết bị lưu trữ bên ngoài như HDFS (Hadoop Distributed File System), Amazon S3 buckets, v.v. Tuy nhiên, cách phổ biến nhất để tạo RDD là từ các tệp lưu trên hệ thống tệp cục bộ của bạn. Cách này nhận một đường dẫn tệp và đọc nó như một tập hợp các dòng. Trong bài tập này, bạn sẽ tạo một RDD từ đường dẫn tệp (file_path) với tên tệp README.md đã có sẵn trong không gian làm việc của bạn.

Nhớ rằng bạn đã có sẵn một SparkContext sc trong không gian làm việc.

Hướng dẫn

100 XP
  • In file_path trong shell PySpark.
  • Tạo một RDD tên fileRDD từ file_path.
  • In kiểu của fileRDD vừa tạo.