Memuat data di PySpark shell
Di PySpark, kita mengekspresikan komputasi melalui operasi pada koleksi terdistribusi yang secara otomatis diparalelkan di seluruh klaster. Pada latihan sebelumnya, Anda telah melihat contoh memuat sebuah list sebagai koleksi terparalelkan, dan pada latihan ini, Anda akan memuat data dari berkas lokal di PySpark shell.
Ingat, Anda sudah memiliki SparkContext sc dan variabel file_path (yaitu path menuju berkas README.md) yang tersedia di workspace Anda.
Latihan ini merupakan bagian dari kursus
Fundamental Big Data dengan PySpark
Instruksi latihan
- Muat berkas teks lokal
README.mddi PySpark shell.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Load a local file into PySpark shell
lines = sc.____(file_path)