or
Bu egzersiz, kursun bir parçasıdır
Spark, Büyük Verilerle çalışmak için bir çerçevedir. Bu bölümde Spark ve Machine Learning hakkında bazı arka plan bilgilerini işleyeceksin. Ardından Python kullanarak Spark'a nasıl bağlanacağını ve CSV verilerini nasıl yükleyeceğini öğreneceksin.
Artık veriyi Spark'a almayı bildiğine göre, iki tür sınıflandırma modeli kurmaya geçeceksin: Karar Ağaçları ve Lojistik Regresyon. Ayrıca veri hazırlama için birkaç yaklaşıma da değineceksin.
Sırada Doğrusal Regresyon modelleri oluşturmayı öğrenmek var. Ayrıca yeni yordayıcılar (özellikler) türeterek verini zenginleştirmeyi ve yalnızca en ilgili yordayıcıları seçmek için sağlam bir yaklaşımı keşfedeceksin.
Son olarak modellerini nasıl daha verimli hale getireceğini öğreneceksin. Kodunu daha anlaşılır ve bakımını kolay kılmak için ardışık düzenleri (pipelines) nasıl kullanacağını göreceksin. Sonra modellerini daha iyi test etmek ve iyi model parametreleri seçmek için çapraz doğrulamayı kullanacaksın. En sonunda iki tür topluluk (ensemble) modeline küçük bir giriş yapacaksın.
Geçerli egzersiz