Dalam bab ini, Anda akan belajar bekerja dengan notebook Databricks, memuat data CSV ke dalam Spark DataFrame, dan membentuk data menggunakan PySpark dan SQL.

Bekerja dengan notebook Databricks

Memahami notebook Databricks

Memuat himpunan data pertama Anda

Menjelajahi driver logs

Membentuk data dengan PySpark dan SQL

Membentuk data dengan PySpark

Menganalisis data dengan SQL

Memahami temporary view

Memuat dan Membentuk Data

Pelajari cara mendefinisikan skema secara eksplisit, membangun pipeline pembersihan data, dan mengoptimalkan kinerja kueri dengan broadcast join.

Pembersihan data dan pemeriksaan kualitas

Mengapa skema eksplisit itu penting

Membersihkan himpunan data online retail

Memilih metrik kualitas yang tepat

Mengagregasi dan menggabungkan data secara efisien

Menggabungkan dan mengagregasi data ritel

Memahami hambatan shuffle

Kapan menggunakan broadcast join

Pembersihan Data dan Optimasi

Pelajari cara menghitung total berjalan dan peringkat dengan window function, membangun pipeline streaming, dan menerapkan workflow produksi.

Fungsi jendela dan kueri streaming

Memeringkat pelanggan dengan window function

Streaming data ritel ke Delta Lake

Melanjutkan setelah restart

Pipa produksi dengan workflow

Menulis dan membaca tabel Delta

Membangun pipeline job multi-task

Mengapa beralih ke Lakeflow?

Penutup

Analitik dan Pipeline Produksi

transactions

country_lookup

online_retail

Siap menangani data dunia nyata dalam skala besar? Kursus ini mengajarkan Anda mentransformasi himpunan data besar menggunakan Spark SQL dan PySpark di Databricks. Pelajari cara membentuk dan membersihkan data, menjalankan agregasi dengan join yang dioptimalkan, serta menerapkan window function untuk analitik lanjut. Anda juga akan menyiapkan streaming berbasis file dengan checkpoint tahan gangguan dan menyimpan hasil sebagai tabel Delta. Pada akhir kursus, Anda akan mengorkestrasi pipeline produksi multi-langkah dengan Databricks Workflows dan Lakeflow Declarative Pipelines.


Introduction to Databricks SQL

Introduction to PySpark

Bangun pipeline data end-to-end - dari pembersihan dan agregasi hingga streaming dan orkestrasi.

Transformasi Data dengan Spark SQL di Databricks

Bangun pipeline data end-to-end - dari pembersihan dan agregasi hingga streaming dan orkestrasi.


Associate Data Engineer in Databricks

Melanjutkan setelah restart

Transformasi Data dengan Spark SQL di Databricks

Latihan interaktif langsung