RDD dari Himpunan Data Eksternal

PySpark dapat dengan mudah membuat RDD dari berkas yang disimpan di perangkat penyimpanan eksternal, seperti HDFS (Hadoop Distributed File System), Amazon S3 bucket, dan lain-lain. Namun, metode yang paling umum untuk membuat RDD adalah dari berkas yang disimpan di sistem berkas lokal Anda. Metode ini menerima path berkas dan membacanya sebagai koleksi baris. Pada latihan ini, Anda akan membuat sebuah RDD dari path berkas (file_path) dengan nama berkas README.md yang sudah tersedia di workspace Anda.

Ingat, Anda sudah memiliki SparkContext sc yang tersedia di workspace Anda.

Latihan ini merupakan bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Instruksi latihan

Cetak file_path di shell PySpark.
Buat sebuah RDD bernama fileRDD dari file_path.
Cetak tipe dari fileRDD yang dibuat.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))

Edit dan Jalankan Kode