PySpark kabuğunda veri yükleme
PySpark'ta hesaplamayı, küme genelinde otomatik olarak paralelleştirilen dağıtık koleksiyonlar üzerindeki işlemlerle ifade ederiz. Önceki egzersizde, bir listenin paralelleştirilmiş koleksiyonlar olarak yüklenmesine bir örnek gördün; bu egzersizde ise PySpark kabuğunda yerel bir dosyadan veri yükleyeceksin.
Unutma, çalışma alanında zaten bir SparkContext sc ve file_path değişkenin (bu, README.md dosyasının yolu) mevcut.
Bu egzersiz
PySpark ile Big Data Temelleri
kursunun bir parçasıdırEgzersiz talimatları
- PySpark kabuğunda yerel
README.mdmetin dosyasını yükle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load a local file into PySpark shell
lines = sc.____(file_path)