Map ve Collect
PySpark’ta veriyi değiştirmenin ana yöntemi map() kullanmaktır. map() dönüşümü bir fonksiyon alır ve bunu RDD’deki her öğeye uygular. Koleksiyonumuzdaki her URL’ye karşılık gelen web sitesini getirmekten sayıları kare almaya kadar pek çok iş için kullanılabilir. Bu basit egzersizde, daha önce oluşturduğun numbRDD RDD’sindeki her sayıyı küplemek için map() dönüşümünü kullanacaksın. Sonrasında tüm öğeleri bir değişkende toplayacak ve en sonunda çıktıyı yazdıracaksın.
Unutma, çalışma alanında zaten bir SparkContext sc ve numbRDD mevcut.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
numbRDDiçindeki tüm sayıları küpleyen birmap()dönüşümü oluştur.- Sonuçları
numbers_alladlı bir değişkende topla. numbers_alldeğişkeninden çıktıyı yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)