Mulai sekarangMulai gratis

Memuat data di PySpark shell

Di PySpark, kita mengekspresikan komputasi melalui operasi pada koleksi terdistribusi yang secara otomatis diparalelkan di seluruh klaster. Pada latihan sebelumnya, Anda telah melihat contoh memuat sebuah list sebagai koleksi terparalelkan, dan pada latihan ini, Anda akan memuat data dari berkas lokal di PySpark shell.

Ingat, Anda sudah memiliki SparkContext sc dan variabel file_path (yaitu path menuju berkas README.md) yang tersedia di workspace Anda.

Latihan ini merupakan bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Instruksi latihan

  • Muat berkas teks lokal README.md di PySpark shell.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load a local file into PySpark shell
lines = sc.____(file_path)
Edit dan Jalankan Kode