Membuat SparkSession
Dalam latihan ini, Anda akan menyalakan klaster Spark lokal dengan menggunakan semua core yang tersedia. Klaster tersebut akan dapat diakses melalui objek SparkSession.
Kelas SparkSession memiliki atribut builder, yang merupakan instance dari kelas Builder. Kelas Builder menyediakan tiga metode penting yang memungkinkan Anda untuk:
- menentukan lokasi node master;
- memberi nama aplikasi (opsional); dan
- mengambil
SparkSessionyang sudah ada atau, jika belum ada, membuat yang baru.
Kelas SparkSession memiliki atribut version yang memberikan versi Spark. Catatan: Versi juga dapat diakses melalui atribut __version__ pada modul pyspark.
Pelajari lebih lanjut tentang SparkSession di sini.
Setelah selesai menggunakan klaster, sebaiknya matikan klaster tersebut agar sumber dayanya dibebaskan dan tersedia untuk proses lain.
Catatan:
- Anda mungkin perlu meninjau kembali slide dari pelajaran pada panel Slide di sebelah IPython Shell.
- Versi Spark pada latihan tidak sama dengan versi pada pelajaran. Platform latihan telah diperbarui ke versi Spark yang lebih baru.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Impor kelas
SparkSessiondaripyspark.sql. - Buat objek
SparkSessionyang terhubung ke klaster lokal. Gunakan semua core yang tersedia. Beri nama aplikasi'test'. - Gunakan atribut
versionpada objekSparkSessionuntuk mengambil versi Spark yang berjalan pada klaster. Catatan: Versinya mungkin berbeda dari yang digunakan dalam presentasi (diperbarui dari waktu ke waktu). - Matikan klaster.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the SparkSession class
from ____ import ____
# Create SparkSession object
spark = SparkSession.builder \
.master(____) \
.____(____) \
.____()
# What version of Spark?
print(spark.____)
# Terminate the cluster
spark.____()