Menggabungkan semuanya I
Anda telah membangun fondasi yang kuat dalam PySpark, mengeksplorasi komponen intinya, dan mengerjakan skenario praktis yang melibatkan Spark SQL, DataFrame, dan operasi lanjutan. Sekarang saatnya menggabungkan semuanya. Dalam dua latihan berikut, Anda akan membuat SparkSession, sebuah DataFrame, melakukan cache pada DataFrame tersebut, menjalankan analitik, dan menjelaskan hasilnya!
Latihan ini adalah bagian dari kursus
Pengantar PySpark
Petunjuk latihan
- Impor
SparkSessiondaripyspark.sql. - Buat
SparkSessionbaru bernamafinal_sparkmenggunakanSparkSession.builder.getOrCreate(). - Cetak
my_sparkke konsol untuk memverifikasi bahwa itu adalahSparkSession. - Buat DataFrame baru dari skema dan definisi kolom yang sudah dimuat sebelumnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import SparkSession from pyspark.sql
from ____ import ____
# Create my_spark
my_spark = SparkSession.builder.appName(____).____
# Print my_spark
____
# Load dataset into a DataFrame
df = ____(data, schema=columns)
df.show()