Paralelleştirilmiş koleksiyonlardan RDD'ler

Resilient Distributed Dataset (RDD), Spark'taki temel soyutlamadır. Değiştirilemez, dağıtık bir nesne koleksiyonudur. RDD, Spark'ta temel ve omurga veri türü olduğundan, nasıl oluşturulacağını anlaman önemli. Bu egzersizde, kelime koleksiyonundan PySpark'ta ilk RDD'ni oluşturacaksın.

Unutma, çalışma alanında zaten bir SparkContext sc mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır

Kursu Görüntüle

Egzersiz talimatları

Python listesi halindeki kelimelerden RDD adlı bir RDD oluştur.
Oluşturulan nesnenin RDD olduğunu doğrula.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))

Kodu Düzenle ve Çalıştır