MulaiMulai sekarang secara gratis

Mengenal SparkContext

Dalam latihan ini, Anda akan berkenalan dengan SparkContext.

Anda mungkin menyadari bahwa kode berjalan lebih lama dari perkiraan. Ini karena Spark adalah perangkat lunak yang cukup kompleks. Waktu mulai (startup) yang dibutuhkan lebih lama dari yang mungkin Anda biasa gunakan. Anda juga mungkin mendapati perhitungan yang lebih sederhana berjalan lebih lama dari perkiraan. Ini karena semua optimisasi yang dimiliki Spark di balik layar dirancang untuk operasi yang rumit dengan himpunan data berukuran besar. Artinya, untuk masalah yang sederhana atau kecil, Spark justru bisa berkinerja lebih buruk dibandingkan beberapa solusi lain!

Latihan ini adalah bagian dari kursus

Dasar-Dasar PySpark

Lihat Kursus

Petunjuk latihan

Kenali SparkContext.

  • Panggil print() pada sc untuk memastikan ada SparkContext di lingkungan Anda.
  • print() sc.version untuk melihat versi Spark yang berjalan pada kluster Anda.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Verify SparkContext
print(____)

# Print Spark version
print(____)
Edit dan Jalankan Kode