MulaiMulai sekarang secara gratis

Menggabungkan semuanya I

Anda telah membangun fondasi yang kuat dalam PySpark, mengeksplorasi komponen intinya, dan mengerjakan skenario praktis yang melibatkan Spark SQL, DataFrame, dan operasi lanjutan. Sekarang saatnya menggabungkan semuanya. Dalam dua latihan berikut, Anda akan membuat SparkSession, sebuah DataFrame, melakukan cache pada DataFrame tersebut, menjalankan analitik, dan menjelaskan hasilnya!

Latihan ini adalah bagian dari kursus

Pengantar PySpark

Lihat Kursus

Petunjuk latihan

  • Impor SparkSession dari pyspark.sql.
  • Buat SparkSession baru bernama final_spark menggunakan SparkSession.builder.getOrCreate().
  • Cetak my_spark ke konsol untuk memverifikasi bahwa itu adalah SparkSession.
  • Buat DataFrame baru dari skema dan definisi kolom yang sudah dimuat sebelumnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import SparkSession from pyspark.sql
from ____ import ____

# Create my_spark
my_spark = SparkSession.builder.appName(____).____

# Print my_spark
____

# Load dataset into a DataFrame
df = ____(data, schema=columns)

df.show()
Edit dan Jalankan Kode