DataFrame temellerine ve veri temizliğinin önemine bir bakış.

Apache Spark ile veri temizlemeye giriş

Veri temizleme değerlendirmesi

Bir şema tanımlama

Değiştirilemezlik ve tembel işlemeye giriş

Değişmezlik (immutability) özeti

Lazy işlemeyi kullanma

Parquet’i Anlamak

Bir DataFrame'i Parquet formatında kaydetme

SQL ve Parquet

DataFrame ayrıntıları

Spark'ta DataFrame içeriklerini değiştirmek için çeşitli tekniklere bir bakış.

DataFrame sütun işlemleri

Python ile sütun içeriğini filtreleme

Filtreleme Sorusu #1

Filtreleme Soru #2

DataFrame sütunlarını değiştirme

Koşullu DataFrame sütun işlemleri

when() örneği

When / Otherwise

Kullanıcı tanımlı fonksiyonlar

Kullanıcı tanımlı fonksiyonları anlama

Spark'ta kullanıcı tanımlı fonksiyonları kullanma

Bölümlendirme ve tembel işleme

Bir ID Alanı Ekleme

Farklı bölümlere (partition) sahip ID'ler

Daha fazla ID hilesi

Gerçek dünyada DataFrame'leri işlemek

Performansı artırarak veya kaynak gereksinimlerini azaltarak veri temizleme görevlerini geliştir.

Önbelleğe Alma

Bir DataFrame'i önbelleğe alma

Bir DataFrame'i önbellekten kaldırma

İçe aktarma performansını iyileştir

Dosya boyutu optimizasyonu

Dosya içe aktarma performansı

Küme yapılandırmaları

Spark yapılandırmalarını okuma

Spark yapılandırmalarını yazma

Performans iyileştirmeleri

Normal birleştirmeler

Spark join'larında yayın (broadcast) kullanma

Broadcast ve normal join'leri karşılaştırma

Performansı iyileştirme

Spark kullanarak gerçek dünyadaki karmaşık verileri işlemeyi ve ardışık düzenlerin temellerini öğren.

Veri boru hatlarına giriş

Hızlı veri hattı

Boru hattı veri sorunu

Veri işleme teknikleri

Yorum satırlarını kaldırma

Geçersiz satırları kaldırma

Sütunlara ayırma

Daha fazla ayrıştırma

Veri doğrulama

Join ile satırları doğrula

Geçersiz satırları inceleme

Son analiz ve teslim

Köpek ayrıştırma

Görsel başına adet

Köpek piksel yüzdesi

Tebrikler ve sonraki adımlar

Karmaşık işleme ve veri ardışıkları

Dallas Council Votes

Dallas Council Voters

Flights - 2014

Flights - 2015

Flights - 2016

Flights - 2017

Veriyle çalışmak zordur — milyonlarca hatta milyarlarca satırla çalışmak daha da zordur.
Oldukça temiz bir veriyle, bir dizüstünde yazılmış veri işleme kodu mu eline geçti?
Büyük olasılıkla basit bir veri sürecini prototipten üretime taşımak sana verildi.
Eksik alanlar, tuhaf biçimlendirmeler ve katbekat daha fazla veri içeren gerçek dünya veri kümeleriyle çalışmış olabilirsin. Bunların hepsi yeni bile olsa, bu kurs Python ve Apache Spark kullanarak veri süreçlerini hazırlamak için gerekenleri öğrenmene yardımcı olur.
Terimleri, yöntemleri ve en iyi uygulamaların bir kısmını öğrenerek yüksek performanslı, sürdürülebilir ve anlaşılır bir veri işleme platformu oluşturmayı öğreneceksin.

Intermediate Python

Introduction to PySpark

PySpark ile Python'da DataFrame ve veri hatları kullanarak verilerinizi temizlemeyi öğrenin.

PySpark ile Veri Temizleme

Python'da Apache Spark ile verileri temizlemeyi öğrenin.

PySpark ile Büyük Veri

Dosya boyutu optimizasyonu

PySpark ile Veri Temizleme

Uygulamalı etkileşimli egzersiz