Mengenal SparkContext
Dalam latihan ini, Anda akan berkenalan dengan SparkContext.
Anda mungkin menyadari bahwa kode berjalan lebih lama dari perkiraan. Ini karena Spark adalah perangkat lunak yang cukup kompleks. Waktu mulai (startup) yang dibutuhkan lebih lama dari yang mungkin Anda biasa gunakan. Anda juga mungkin mendapati perhitungan yang lebih sederhana berjalan lebih lama dari perkiraan. Ini karena semua optimisasi yang dimiliki Spark di balik layar dirancang untuk operasi yang rumit dengan himpunan data berukuran besar. Artinya, untuk masalah yang sederhana atau kecil, Spark justru bisa berkinerja lebih buruk dibandingkan beberapa solusi lain!
Latihan ini adalah bagian dari kursus
Dasar-Dasar PySpark
Petunjuk latihan
Kenali SparkContext.
- Panggil
print()padascuntuk memastikan adaSparkContextdi lingkungan Anda. print()sc.versionuntuk melihat versi Spark yang berjalan pada kluster Anda.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Verify SparkContext
print(____)
# Print Spark version
print(____)