Harici Veri Kümelerinden RDD'ler

PySpark, HDFS (Hadoop Distributed File System), Amazon S3 kovaları gibi harici depolama aygıtlarında tutulan dosyalardan kolayca RDD oluşturabilir. Ancak, en yaygın RDD oluşturma yöntemi, yerel dosya sisteminde saklanan dosyalardan oluşturmaktır. Bu yöntem bir dosya yolunu alır ve dosyayı satırların bir koleksiyonu olarak okur. Bu egzersizde, çalışma alanında zaten bulunan README.md dosya adına sahip dosya yolundan (file_path) bir RDD oluşturacaksın.

Unutma, çalışma alanında zaten bir SparkContext sc mevcut.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Big Data Temelleri

Kursa Göz Atın

Egzersiz talimatları

PySpark kabuğunda file_path değerini yazdır.
file_path'ten fileRDD adlı bir RDD oluştur.
Oluşturulan fileRDD'nin türünü yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))

Kodu Düzenle ve Çalıştır