Bu bölümde Databricks not defterleriyle çalışmayı, CSV verisini Spark DataFrame'lerine yüklemeyi ve veriyi PySpark ile SQL kullanarak şekillendirmeyi öğreneceksin.

Databricks not defterleriyle çalışmak

Databricks notebook'larını anlama

İlk veri kümeni yükleme

Sürücü günlüklerini keşfetme

PySpark ve SQL ile verileri şekillendirme

Veriyi şekillendirmek için PySpark kullanma

SQL ile verileri analiz etme

Geçici görünümleri anlama

Veri Yükleme ve Şekillendirme

Açık şemalar tanımlamayı, bir veri temizleme boru hattı kurmayı ve broadcast join'lerle sorgu performansını optimize etmeyi öğren.

Veri temizleme ve kalite kontrolleri

Neden açık şemalar önemlidir

Online retail veri kümesini temizleme

Doğru kalite metriğini seçmek

Verileri verimli şekilde özetleme ve birleştirme

Perakende verilerini birleştirme ve özetleme

Shuffle dar boğazını anlamak

Broadcast join ne zaman kullanılır

Veri Temizleme ve Optimizasyon

Window fonksiyonlarıyla kümülatif toplamlar ve sıralamalar hesaplamayı, akış boru hatları kurmayı ve üretim iş akışlarını devreye almayı öğren.

Pencere fonksiyonları ve akış sorguları

Window fonksiyonlarıyla müşterileri sıralama

Perakende verisini Delta Lake'e akışla yazma

Yeniden başlatmadan sonra kaldığın yerden devam

Workflow'lerle üretim hatları

Bir Delta tablosu yazma ve okuma

Çok görevli bir iş hattı oluşturma

Neden Lakeflow'a geçelim?

Kapanış

Analitik ve Üretim Boru Hatları

transactions

country_lookup

online_retail

Gerçek dünya verilerini ölçekli şekilde işlemeye hazır mısın? Bu kurs, Databricks üzerinde Spark SQL ve PySpark kullanarak büyük veri kümelerini dönüştürmeyi öğretiyor. Veriyi şekillendirmeyi ve temizlemeyi, optimize edilmiş birleştirmelerle toplulaştırmalar çalıştırmayı ve gelişmiş analizler için window fonksiyonlarını uygulamayı öğreneceksin. Ayrıca dosya tabanlı akışları hata toleranslı denetim noktalarıyla kuracak ve sonuçları Delta tabloları olarak kalıcı hale getireceksin. Kursun sonunda, Databricks Workflows ve Lakeflow Declarative Pipelines ile çok adımlı üretim boru hatlarını orkestre edebileceksin.


Introduction to Databricks SQL

Introduction to PySpark

Veri temizleme, toplama, akış ve orkestrasyon için uçtan uca veri hatları oluşturun.

Databricks'te Spark SQL ile Veri Dönüştürme

Uçtan uca veri işlem hattı oluşturun - temizleme ve toplulaştırmadan akış ve orkestrasyona kadar.


Associate Data Engineer in Databricks

Shuffle dar boğazını anlamak

Databricks'te Spark SQL ile Veri Dönüştürme

Uygulamalı etkileşimli egzersiz