Spark, Büyük Verilerle çalışmak için bir çerçevedir. Bu bölümde Spark ve Machine Learning hakkında bazı arka plan bilgilerini işleyeceksin. Ardından Python kullanarak Spark'a nasıl bağlanacağını ve CSV verilerini nasıl yükleyeceğini öğreneceksin.

Machine Learning ve Spark

Spark'ın Özellikleri

Bir Spark Kümesindeki Bileşenler

Spark'a Bağlanma

Spark master konumu

Bir SparkSession Oluşturma

Veri Yükleme

Uçuş verilerini yükleme

SMS spam verisini yükleme

Giriş

Artık veriyi Spark'a almayı bildiğine göre, iki tür sınıflandırma modeli kurmaya geçeceksin: Karar Ağaçları ve Lojistik Regresyon. Ayrıca veri hazırlama için birkaç yaklaşıma da değineceksin.

Veri Hazırlama

Sütunları ve satırları kaldırma

Sütun düzenleme

Kategorik sütunlar

Sütunları birleştirme

Karar Ağacı

Eğitim/test ayrımı

Bir Decision Tree Modeli Kur

Karar Ağacını Değerlendir

Logistic Regression

Bir Logistic Regression modeli kur

Logistic Regression modelini değerlendir

Metni Tabloya Dönüştürme

Noktalama işaretleri, sayılar ve belirteçler

Stopwords ve hashing

Bir spam sınıflandırıcı eğitme

Sınıflandırma

Sırada Doğrusal Regresyon modelleri oluşturmayı öğrenmek var. Ayrıca yeni yordayıcılar (özellikler) türeterek verini zenginleştirmeyi ve yalnızca en ilgili yordayıcıları seçmek için sağlam bir yaklaşımı keşfedeceksin.

One-Hot Encoding

Uçuş kalkış havaalanını kodlama

Tişört bedenlerini kodlama

Regresyon

Uçuş süresi modeli: Sadece mesafe

Katsayıları yorumlama

Uçuş süresi modeli: Kalkış havaalanını eklemek

Gruplama (Bucketing) ve Özellik Mühendisliği

Kalkış saatini bölütleme (bucketing)

Uçuş süresi modeli: Kalkış saatini ekleme

Düzenlileştirme

Uçuş süresi modeli: Daha fazla özellik!

Uçuş süresi modeli: Düzenlileştirme!

Son olarak modellerini nasıl daha verimli hale getireceğini öğreneceksin. Kodunu daha anlaşılır ve bakımını kolay kılmak için ardışık düzenleri (pipelines) nasıl kullanacağını göreceksin. Sonra modellerini daha iyi test etmek ve iyi model parametreleri seçmek için çapraz doğrulamayı kullanacaksın. En sonunda iki tür topluluk (ensemble) modeline küçük bir giriş yapacaksın.

Pipeline

Uçuş süresi modeli: Pipeline aşamaları

Uçuş süresi modeli: Pipeline modeli

SMS spam pipeline'ı

Çapraz Doğrulama

Basit uçuş süresi modelini çapraz doğrulama

Uçuş süresi model hattını çapraz doğrulama

Grid Search

Uçuşlar için lineer regresyonu optimize etme

En iyi uçuş süresi modelini incelemek

SMS spam optimize edildi

Izgara aramasında kaç model?

Ensemble

Gradient-Boosted Trees ile geciken uçuşlar

Rastgele Orman ile gecikmiş uçuşlar

Random Forest'ı Değerlendirme

Kapanış düşünceleri

Topluluklar (Ensembles) ve Ardışık Düzenler

Flights

Spark, Büyük Verilerle çalışmak için güçlü ve genel amaçlı bir araçtır. Spark, hesaplama görevlerinin dağıtımını bir küme üzerinde şeffaf bir şekilde yönetir. Bu sayede işlemler hızlıdır ve teknik ayrıntılarla uğraşmak yerine analize odaklanmana olanak tanır. Bu kursta veriyi Spark'a nasıl alacağını öğrenecek ve ardından üç temel Spark Machine Learning algoritmasına dalacaksın: Doğrusal Regresyon, Lojistik Regresyon/Sınıflandırıcılar ve ardışık düzenler (pipelines) oluşturma. Bu süreçte uçuş gecikmeleri ve istenmeyen (spam) kısa mesajlardan oluşan büyük bir veri kümesini analiz edeceksin. Bu altyapıyla Spark'ın gücünden yararlanmaya ve onu kendi Machine Learning projelerinde uygulamaya hazır olacaksın!

<h2>Makine Öğrenimi için Apache Spark Kullanmayı Öğrenin</h2> 
Spark, Büyük Veri ile çalışmak için güçlü, genel amaçlı bir araçtır. Spark, bir küme içinde hesaplama görevlerinin dağıtımını şeffaf bir şekilde yönetir. Bu, işlemlerin hızlı olduğu anlamına gelir, ancak aynı zamanda teknik ayrıntılar hakkında endişelenmek yerine analize odaklanmanıza da olanak tanır. Bu kursta, Spark'a veri aktarmanın yollarını öğrenecek ve ardından üç temel Spark Makine Öğrenimi algoritmasını inceleyeceksiniz: Doğrusal regresyon, lojistik regresyon/sınıflandırıcılar ve boru hatları oluşturma.
<br><br> 
<h2>Karar Ağaçları Oluşturma ve Test Etme</h2> 
Kendi karar ağaçlarınızı oluşturmak, makine öğrenimi modellerini keşfetmeye başlamak için harika bir yoldur. Verileri iki sınıfa ayırmak için "Yinelemeli Bölme" adlı bir algoritma kullanacak ve verilerinizde iki sınıfın en bilgilendirici şekilde bölünmesini sağlayan bir tahminci bulacak ve bu işlemi diğer düğümlerle tekrarlayacaksınız. Ardından karar ağacınızı kullanarak yeni verilerle tahminlerde bulunabilirsiniz.
<br><br> 
<h2>PySpark'ta Master Logistic ve Doğrusal Regresyon</h2> 
Lojistik ve doğrusal regresyon, PySpark tarafından desteklenen temel makine öğrenimi teknikleridir. Lojistik regresyon modelleri oluşturmayı ve değerlendirmeyi öğrenecek, ardından doğrusal regresyon modelleri oluşturarak tahmincilerinizi yalnızca en alakalı seçeneklerle sınırlandırmayı öğreneceksiniz.
<br><br> 
Kursun sonunda, kurs boyunca yer alan uygulamalı görevler ve alıştırma veri setleri sayesinde, yeni edindiğiniz makine öğrenimi bilgilerini güvenle uygulayabileceksiniz.

Supervised Learning with scikit-learn

Introduction to PySpark

Apache Spark ile karar ağaçları, lojistik regresyon, lineer regresyon, topluluklar ve boru hatları kullanarak veri tahmini yapmayı öğrenin.

PySpark ile Machine Learning

Apache Spark ile karar ağaçları, lojistik regresyon, doğrusal regresyon, kümeler ve ardışık düzenler kullanarak verilerden tahminler yapmayı öğrenin.

Pipeline

Create Your Free Account