Map ve Collect
PySpark’ta veriyi değiştirmenin ana yöntemi map() kullanmaktır. map() dönüşümü bir fonksiyon alır ve bunu RDD’deki her öğeye uygular. Koleksiyonumuzdaki her URL’ye karşılık gelen web sitesini getirmekten sayıları kare almaya kadar pek çok iş için kullanılabilir. Bu basit egzersizde, daha önce oluşturduğun numbRDD RDD’sindeki her sayıyı küplemek için map() dönüşümünü kullanacaksın. Sonrasında tüm öğeleri bir değişkende toplayacak ve en sonunda çıktıyı yazdıracaksın.
Unutma, çalışma alanında zaten bir SparkContext sc ve numbRDD mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
numbRDDiçindeki tüm sayıları küpleyen birmap()dönüşümü oluştur.- Sonuçları
numbers_alladlı bir değişkende topla. numbers_alldeğişkeninden çıktıyı yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)