Memuat data di PySpark shell

Di PySpark, kita mengekspresikan komputasi melalui operasi pada koleksi terdistribusi yang secara otomatis diparalelkan di seluruh klaster. Pada latihan sebelumnya, Anda telah melihat contoh memuat sebuah list sebagai koleksi terparalelkan, dan pada latihan ini, Anda akan memuat data dari berkas lokal di PySpark shell.

Ingat, Anda sudah memiliki SparkContext sc dan variabel file_path (yaitu path menuju berkas README.md) yang tersedia di workspace Anda.

Latihan ini adalah bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Petunjuk latihan

Muat berkas teks lokal README.md di PySpark shell.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load a local file into PySpark shell
lines = sc.____(file_path)

Edit dan Jalankan Kode