RDD dari Himpunan Data Eksternal
PySpark dapat dengan mudah membuat RDD dari berkas yang disimpan di perangkat penyimpanan eksternal, seperti HDFS (Hadoop Distributed File System), Amazon S3 bucket, dan lain-lain. Namun, metode yang paling umum untuk membuat RDD adalah dari berkas yang disimpan di sistem berkas lokal Anda. Metode ini menerima path berkas dan membacanya sebagai koleksi baris. Pada latihan ini, Anda akan membuat sebuah RDD dari path berkas (file_path) dengan nama berkas README.md yang sudah tersedia di workspace Anda.
Ingat, Anda sudah memiliki SparkContext sc yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Cetak
file_pathdi shell PySpark. - Buat sebuah RDD bernama
fileRDDdarifile_path. - Cetak tipe dari
fileRDDyang dibuat.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))