Paralelleştirilmiş koleksiyonlardan RDD'ler
Resilient Distributed Dataset (RDD), Spark'taki temel soyutlamadır. Değiştirilemez, dağıtık bir nesne koleksiyonudur. RDD, Spark'ta temel ve omurga veri türü olduğundan, nasıl oluşturulacağını anlaman önemli. Bu egzersizde, kelime koleksiyonundan PySpark'ta ilk RDD'ni oluşturacaksın.
Unutma, çalışma alanında zaten bir SparkContext sc mevcut.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
- Python listesi halindeki kelimelerden
RDDadlı bir RDD oluştur. - Oluşturulan nesnenin RDD olduğunu doğrula.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))