PySpark ve dağıtık hesaplamaya genel bir giriş. Bu bölümde PySpark, PySpark DataFrame'leri ve RDD'ler tanıtılır.

PySpark’a Giriş

Bir SparkSession Oluşturma

Nüfus sayımı verilerini yükleme

PySpark DataFrame’lere Giriş

Ölçeklenebilirlik ve performans

Bir CSV okuma ve toplulaştırmalar yapma

Şirkete göre filtreleme

Spark DataFrame'ler Üzerine Daha Fazlası

Çıkarım yap ve filtrele

Şema yazımı

Apache Spark ve PySpark'e Giriş

DataFrame'ler ve karmaşık veri türlerinin devamı. Bu bölüm, PySpark’ta DataFrame’lerin sunduklarını genişletir ve bazı Spark SQL kavramlarını tanıtır.

DataFrame’lerle veri işleme

fill ve drop ile eksik verileri ele alma

Sütun işlemleri - sütun oluşturma ve yeniden adlandırma

İleri Düzey DataFrame işlemleri

DataFrame birleştirmeleri

Uçuşları varış havaalanlarıyla birleştirme

Sen tanımlarsın, sen kullanırsın!

UDF tanımlandı

PySpark UDF'lerinde tamsayılar

Pandas UDF'ler

Python'da PySpark

Büyük veri kümelerini verimli bir şekilde işlemek için SQL'in sadeliğini PySpark'ın dağıtık hesaplama gücüyle birleştirerek Spark SQL ve PySpark'tan yararlanmaya dal.

PySpark’ta dayanıklı dağıtık veri kümeleri

RDD oluşturma

RDD'leri toplama (Collect)

Spark SQL'ye Giriş

Geçici bir görünüm üzerinde sorgulama

DataFrame'lerde SQL çalıştırma

DataFrame'lerde SQL ile Analitik

PySpark toplulaştırmaları

PySpark'ta birleştirmeler (aggregations)

RDD'lerde toplama

Karmaşık Birleştirmeler

Ölçekli PySpark

Broadcasting

Hepsini bir araya getirme I

Hepsini bir araya getirme II

Neler öğrendik?

PySpark SQL'e Giriş

Transportation

Salaries

Adults

Course Glossary

Bu kurs, büyük veri kümeleriyle PySpark kullanarak çalışmak isteyen veri mühendisleri, veri bilimcileri ve Machine Learning uygulayıcıları için tasarlanmıştır. Apache Spark'ın hızını ve ölçeklenebilirliğini keşfedecek, Spark oturumları oluşturmayı öğrenecek, RDD'lerle çalışacak ve uygulamalı alıştırmalarla DataFrame'leri yöneteceksin. Kurs, PySpark SQL'i de kapsar; SQL ile veri sorgulamayı, şemalar ve karmaşık veri türleriyle çalışmayı ve dağıtık ortamlarda performansı optimize etmeyi öğreneceksin. Sonunda, büyük veriyi işleme ve analiz etme konusunda temel becerilere sahip olacak ve Machine Learning ve büyük veri analitiği gibi ileri uygulamalara zemin hazırlayacaksın.

Videolarda, sol alttaki "Show transcript" seçeneğine tıklayarak açabileceğin canlı transkriptler bulunur.
Kurs sözlüğünü sağdaki kaynaklar bölümünde bulabilirsin.
CPE kredileri almak için kursu tamamlaman ve nitelikli değerlendirmede %70 puana ulaşman gerekir. Sağ taraftaki CPE kredileri çağrı kutusuna tıklayarak değerlendirmeye gidebilirsin.

Bu kurs, büyük veri kümeleriyle verimli bir şekilde çalışmak isteyen veri mühendisleri, veri bilimcileri ve makine öğrenimi uzmanları için idealdir. Pandas gibi araçlardan geçiş yapıyor ya da ilk kez büyük veri teknolojilerine giriş yapıyor olsanız da, bu kurs PySpark ve dağıtılmış veri işleme konusunda sağlam bir giriş sunar.<br><br>
<h2>Neden Spark? Neden şimdi?</h2>
Büyük verileri işlemek için tasarlanmış güçlü bir çerçeve olan Apache Spark'ın hızını ve ölçeklenebilirliğini keşfedin. Etkileşimli dersler ve uygulamalı alıştırmalar sayesinde, Spark'ın bellek içi işleme özelliğinin Hadoop gibi geleneksel çerçevelere göre nasıl bir avantaj sağladığını göreceksiniz. Spark oturumlarını kurarak başlayacak ve Esnek Dağıtılmış Veri Kümeleri (RDD'ler) ve Veri Çerçeveleri gibi temel bileşenleri inceleyeceksiniz. Gerçek dünya örnekleri üzerinde çalışırken veri kümelerini kolaylıkla filtrelemeyi, gruplandırmayı ve birleştirmeyi öğrenin.<br><br>
<h2>Büyük Veri için Python ve SQL Becerilerinizi Geliştirin</h2>
Tanıdık SQL sözdizimini kullanarak veri sorgulama ve yönetme için PySpark SQL'i nasıl kullanabileceğinizi öğrenin. Dağıtılmış sistemler için önbellekleme ve performans optimizasyonu becerilerini geliştirirken, şemaları, karmaşık veri türlerini ve kullanıcı tanımlı işlevleri (UDF'ler) ele alın.<br><br>
<h2>Büyük Veri Temellerinizi Oluşturun</h2>
Bu kursun sonunda, PySpark kullanarak büyük verileri işleme, sorgulama ve işleme konusunda kendinize güven duyacaksınız. Bu temel becerilerle, makine öğrenimi ve büyük veri analizi gibi ileri düzey konuları keşfetmeye hazır olacaksınız.

Introduction to SQL

Data Manipulation with pandas

PySpark ile büyük veriyi kolayca yönetin—dev veri kümelerini işleyin, sorgulayın ve optimize edin!

PySpark'e Giriş

PySpark'ta ustalaşarak büyük verileri kolaylıkla işleyin. Büyük veri kümelerini işleyerek, sorgulayarak iyileştirerek güçlü analizler yapın!

Associate Data Engineer in Databricks

PySpark ile Büyük Veri

Makine Öğrenimi Bilimcisi Python'da

Profesyonel Veri Mühendisi Python'da

RDD'leri toplama (Collect)

PySpark'e Giriş

Egzersiz talimatları

Uygulamalı etkileşimli egzersiz