Memuat data di PySpark shell
Di PySpark, kita mengekspresikan komputasi melalui operasi pada koleksi terdistribusi yang secara otomatis diparalelkan di seluruh klaster. Pada latihan sebelumnya, Anda telah melihat contoh memuat sebuah list sebagai koleksi terparalelkan, dan pada latihan ini, Anda akan memuat data dari berkas lokal di PySpark shell.
Ingat, Anda sudah memiliki SparkContext sc dan variabel file_path (yaitu path menuju berkas README.md) yang tersedia di workspace Anda.
Latihan ini adalah bagian dari kursus
Fundamental Big Data dengan PySpark
Petunjuk latihan
- Muat berkas teks lokal
README.mddi PySpark shell.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load a local file into PySpark shell
lines = sc.____(file_path)