RDD từ tập dữ liệu bên ngoài

PySpark có thể dễ dàng tạo RDD từ các tệp lưu trên thiết bị lưu trữ bên ngoài như HDFS (Hadoop Distributed File System), Amazon S3 buckets, v.v. Tuy nhiên, cách phổ biến nhất để tạo RDD là từ các tệp lưu trên hệ thống tệp cục bộ của bạn. Cách này nhận một đường dẫn tệp và đọc nó như một tập hợp các dòng. Trong bài tập này, bạn sẽ tạo một RDD từ đường dẫn tệp (file_path) với tên tệp README.md đã có sẵn trong không gian làm việc của bạn.

Nhớ rằng bạn đã có sẵn một SparkContext sc trong không gian làm việc.

In file_path trong shell PySpark.
Tạo một RDD tên fileRDD từ file_path.
In kiểu của fileRDD vừa tạo.

Bài tập

RDD từ tập dữ liệu bên ngoài

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập