Peki Spark nedir?
Spark, küme bilgisayımı için bir platformdur. Spark, verileri ve hesaplamaları birden çok düğüm içeren kümelere yaymana olanak tanır (her düğümü ayrı bir bilgisayar gibi düşün). Veriyi bölmek, her düğüm yalnızca küçük bir veri parçasıyla çalıştığı için çok büyük veri kümeleriyle çalışmayı kolaylaştırır.
Her düğüm toplam verinin kendi alt kümesi üzerinde çalıştıkça, gereken toplam hesaplamaların bir kısmını da yürütür; böylece hem veri işleme hem de hesaplama kümedeki düğümler üzerinde paralel olarak gerçekleştirilir. Paralel hesaplamanın belirli türdeki programlama görevlerini çok daha hızlı hale getirebildiği bir gerçektir.
Ancak, daha fazla hesaplama gücü daha fazla karmaşıklığı da beraberinde getirir.
Spark’ın sorunun için en iyi çözüm olup olmadığına karar vermek biraz deneyim ister, ama şu soruları göz önünde bulundurabilirsin:
- Verilerim tek bir makinede çalışmak için fazla büyük mü?
- Hesaplamalarım kolayca paralelleştirilebilir mi?
Spark hakkında daha fazla şey öğrenmek için heyecanlı mısın?
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırUygulamalı interaktif egzersiz
İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün
Egzersizi başlat