BaşlayınÜcretsiz başlayın

Paralelleştirilmiş koleksiyonlardan RDD'ler

Resilient Distributed Dataset (RDD), Spark'taki temel soyutlamadır. Değiştirilemez, dağıtık bir nesne koleksiyonudur. RDD, Spark'ta temel ve omurga veri türü olduğundan, nasıl oluşturulacağını anlaman önemli. Bu egzersizde, kelime koleksiyonundan PySpark'ta ilk RDD'ni oluşturacaksın.

Unutma, çalışma alanında zaten bir SparkContext sc mevcut.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Big Data Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • Python listesi halindeki kelimelerden RDD adlı bir RDD oluştur.
  • Oluşturulan nesnenin RDD olduğunu doğrula.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))
Kodu Düzenle ve Çalıştır