BaşlayınÜcretsiz Başlayın

Harici Veri Kümelerinden RDD'ler

PySpark, HDFS (Hadoop Distributed File System), Amazon S3 kovaları gibi harici depolama aygıtlarında tutulan dosyalardan kolayca RDD oluşturabilir. Ancak, en yaygın RDD oluşturma yöntemi, yerel dosya sisteminde saklanan dosyalardan oluşturmaktır. Bu yöntem bir dosya yolunu alır ve dosyayı satırların bir koleksiyonu olarak okur. Bu egzersizde, çalışma alanında zaten bulunan README.md dosya adına sahip dosya yolundan (file_path) bir RDD oluşturacaksın.

Unutma, çalışma alanında zaten bir SparkContext sc mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • PySpark kabuğunda file_path değerini yazdır.
  • file_path'ten fileRDD adlı bir RDD oluştur.
  • Oluşturulan fileRDD'nin türünü yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))
Kodu Düzenle ve Çalıştır