BaşlayınÜcretsiz Başlayın

PySpark kabuğunda veri yükleme

PySpark'ta hesaplamayı, küme genelinde otomatik olarak paralelleştirilen dağıtık koleksiyonlar üzerindeki işlemlerle ifade ederiz. Önceki egzersizde, bir listenin paralelleştirilmiş koleksiyonlar olarak yüklenmesine bir örnek gördün; bu egzersizde ise PySpark kabuğunda yerel bir dosyadan veri yükleyeceksin.

Unutma, çalışma alanında zaten bir SparkContext sc ve file_path değişkenin (bu, README.md dosyasının yolu) mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • PySpark kabuğunda yerel README.md metin dosyasını yükle.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load a local file into PySpark shell
lines = sc.____(file_path)
Kodu Düzenle ve Çalıştır