Paralelleştirilmiş koleksiyonlardan RDD'ler
Resilient Distributed Dataset (RDD), Spark'taki temel soyutlamadır. Değiştirilemez, dağıtık bir nesne koleksiyonudur. RDD, Spark'ta temel ve omurga veri türü olduğundan, nasıl oluşturulacağını anlaman önemli. Bu egzersizde, kelime koleksiyonundan PySpark'ta ilk RDD'ni oluşturacaksın.
Unutma, çalışma alanında zaten bir SparkContext sc mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
- Python listesi halindeki kelimelerden
RDDadlı bir RDD oluştur. - Oluşturulan nesnenin RDD olduğunu doğrula.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))