Harici Veri Kümelerinden RDD'ler
PySpark, HDFS (Hadoop Distributed File System), Amazon S3 kovaları gibi harici depolama aygıtlarında tutulan dosyalardan kolayca RDD oluşturabilir. Ancak, en yaygın RDD oluşturma yöntemi, yerel dosya sisteminde saklanan dosyalardan oluşturmaktır. Bu yöntem bir dosya yolunu alır ve dosyayı satırların bir koleksiyonu olarak okur. Bu egzersizde, çalışma alanında zaten bulunan README.md dosya adına sahip dosya yolundan (file_path) bir RDD oluşturacaksın.
Unutma, çalışma alanında zaten bir SparkContext sc mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
- PySpark kabuğunda
file_pathdeğerini yazdır. file_path'tenfileRDDadlı bir RDD oluştur.- Oluşturulan
fileRDD'nin türünü yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))