Mengenal SparkContext
Dalam latihan ini, Anda akan berkenalan dengan SparkContext.
Anda mungkin menyadari bahwa kode berjalan lebih lama dari perkiraan. Ini karena Spark adalah perangkat lunak yang cukup kompleks. Waktu mulai (startup) yang dibutuhkan lebih lama dari yang mungkin Anda biasa gunakan. Anda juga mungkin mendapati perhitungan yang lebih sederhana berjalan lebih lama dari perkiraan. Ini karena semua optimisasi yang dimiliki Spark di balik layar dirancang untuk operasi yang rumit dengan himpunan data berukuran besar. Artinya, untuk masalah yang sederhana atau kecil, Spark justru bisa berkinerja lebih buruk dibandingkan beberapa solusi lain!
Latihan ini merupakan bagian dari kursus
Dasar-Dasar PySpark
Instruksi latihan
Kenali SparkContext.
- Panggil
print()padascuntuk memastikan adaSparkContextdi lingkungan Anda. print()sc.versionuntuk melihat versi Spark yang berjalan pada kluster Anda.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Verify SparkContext
print(____)
# Print Spark version
print(____)