Mulai sekarangMulai gratis

Menggabungkan semuanya I

Anda telah membangun fondasi yang kuat dalam PySpark, mengeksplorasi komponen intinya, dan mengerjakan skenario praktis yang melibatkan Spark SQL, DataFrame, dan operasi lanjutan. Sekarang saatnya menggabungkan semuanya. Dalam dua latihan berikut, Anda akan membuat SparkSession, sebuah DataFrame, melakukan cache pada DataFrame tersebut, menjalankan analitik, dan menjelaskan hasilnya!

Latihan ini merupakan bagian dari kursus

Pengantar PySpark

Lihat Kursus

Instruksi latihan

  • Impor SparkSession dari pyspark.sql.
  • Buat SparkSession baru bernama final_spark menggunakan SparkSession.builder.getOrCreate().
  • Cetak my_spark ke konsol untuk memverifikasi bahwa itu adalah SparkSession.
  • Buat DataFrame baru dari skema dan definisi kolom yang sudah dimuat sebelumnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Edit dan Jalankan Kode