Harici Veri Kümelerinden RDD'ler
PySpark, HDFS (Hadoop Distributed File System), Amazon S3 kovaları gibi harici depolama aygıtlarında tutulan dosyalardan kolayca RDD oluşturabilir. Ancak, en yaygın RDD oluşturma yöntemi, yerel dosya sisteminde saklanan dosyalardan oluşturmaktır. Bu yöntem bir dosya yolunu alır ve dosyayı satırların bir koleksiyonu olarak okur. Bu egzersizde, çalışma alanında zaten bulunan README.md dosya adına sahip dosya yolundan (file_path) bir RDD oluşturacaksın.
Unutma, çalışma alanında zaten bir SparkContext sc mevcut.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
- PySpark kabuğunda
file_pathdeğerini yazdır. file_path'tenfileRDDadlı bir RDD oluştur.- Oluşturulan
fileRDD'nin türünü yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))