Bu bölümde Spark’ın veriyi nasıl yönettiğini ve Python’dan tabloları nasıl okuyup yazabileceğini öğreneceksin.

Peki Spark nedir?

Python'da Spark kullanma

SparkContext'i İncelemek

DataFrame'leri Kullanma

Bir SparkSession Oluşturma

Tabloları görüntüleme

Sorgu meraklısı mısın?

Bir Spark DataFrame'ini pandas'a dönüştür

Verine biraz Spark kat

Aradaki aracı kaldırmak

PySpark’ı tanıyalım

Bu bölümde, Spark oturumunda optimize edilmiş veri sorguları sağlayan pyspark.sql modülünü öğreneceksin.

Sütun oluşturma

Kısaca SQL

Kısaca SQL (2)

Veri Filtreleme

Seçme

Seçim II

Birleştirerek özetleme

Toplama II

Gruplama ve Birleştirme I

Gruplama ve Birleştirme II

Join işlemleri

Join işlemleri II

Veriyle çalışmak

PySpark, en yeni Machine Learning yordamlarını ve tam bir Machine Learning işlem hattı oluşturmak için yardımcı araçları içerir. Bu bölümde bunları öğreneceksin.

Machine Learning Pipeline'ları

DataFrame'leri birleştir

Veri tipleri

String'den integer'a

Yeni bir sütun oluştur

Boolean Oluşturma

String'ler ve kategoriler

Carrier

Varış Noktası

Bir vektör oluştur

Pipeline'ı oluştur

Test vs. Train

Veriyi dönüştür

Veriyi böl

Machine Learning işlem hatlarına giriş

Bu son bölümde, öğrendiklerini uygulayarak hangi uçuşların gecikeceğini tahmin eden bir model oluşturacaksın.

Lojistik regresyon nedir?

Modelleyiciyi oluştur

Çapraz doğrulama

Değerlendiriciyi oluştur

Bir ızgara oluştur

Doğrulayıcıyı oluştur

Model(ler)i eğit

İkili sınıflandırıcıları değerlendirme

Modeli değerlendir

Model ayarlama ve seçimi

Airports

Flights

Planes

Bu derste, Spark'ı Python'dan nasıl kullanacağını öğreneceksin! Spark, büyük veri kümeleriyle paralel hesaplama yapmak için kullanılan bir araçtır ve Python ile çok iyi entegre olur. PySpark ise bu sihri mümkün kılan Python paketidir. Bu paketi kullanarak Portland ve Seattle'dan kalkış yapan uçuşlara ait verilerle çalışacaksın. Bu verileri düzenlemeyi öğrenecek ve uçuşların gecikip gecikmeyeceğini tahmin etmek için uçtan uca bir Machine Learning işlem hattı kuracaksın. Python koduna biraz Spark katmaya ve yüksek performanslı Machine Learning dünyasına dalmaya hazır ol!

Introduction to Python

PySpark ile veri işleyip makine öğrenimi hattı kurarak tahmin yapmayı öğrenin. Gerçek verilerle çalışın.

PySpark Temelleri

PySpark paketini kullanarak Spark'ta dağıtılmış veri yönetimi ve makine öğrenimini uygulamayı öğrenin.

Machine Learning Pipeline'ları

PySpark Temelleri

Uygulamalı etkileşimli egzersiz