Python'da Spark kullanma
Spark'ı kullanmanın ilk adımı bir kümeye bağlanmaktır.
Pratikte küme, diğer tüm düğümlere bağlı uzak bir makinede barındırılır. Veriyi ve hesaplamaları bölmeyi yöneten bir bilgisayar vardır; buna master denir. Master, kümedeki diğer bilgisayarlara, yani worker'lara bağlıdır. Master, çalıştırmaları için worker'lara veri ve hesaplamaları gönderir, onlar da sonuçlarını master'a geri yollar.
Spark'a yeni başlarken kümeyi yerelde çalıştırmak daha basittir. Bu yüzden, bu derste başka bir bilgisayara bağlanmak yerine tüm hesaplamalar DataCamp'in sunucularında, simüle edilmiş bir kümede çalıştırılacak.
Bağlantı oluşturmak, SparkContext sınıfından bir örnek yaratmak kadar kolaydır. Sınıf kurucusu, bağlandığın kümenin özelliklerini belirtmene olanak tanıyan birkaç isteğe bağlı argüman alır.
Bu özelliklerin tümünü tutan bir nesne SparkConf() kurucusuyla oluşturulabilir. Tüm ayrıntılar için dokümantasyona göz at!
Bu dersin geri kalanında çalışma alanında sc adlı bir SparkContext hazır bulunacak.
PySpark ile bir Spark kümesine nasıl bağlanırsın?
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat