or
Bu egzersiz, kursun bir parçasıdır
Bu bölüm, Big Data’nın heyecan verici dünyasını ve Big Data’yı işlemek için kullanılan farklı kavramları ve çerçeveleri tanıtır. Apache Spark’ın neden BigData için en iyi çerçeve olarak görüldüğünü anlayacaksın.
Spark’ın sunduğu temel soyutlama, bu motorun omurgası olan dayanıklı dağıtık veri kümesi (RDD)’dir. Bu bölüm, RDD’leri tanıtır ve RDD Dönüşümleri (Transformations) ve Eylemleri (Actions) kullanılarak RDD’lerin nasıl oluşturulup çalıştırılacağını gösterir.
Bu bölümde, yapılandırılmış veri işlemesi için bir Spark modülü olan Spark SQL’i öğreneceksin. DataFrame adı verilen bir programlama soyutlaması sunar ve dağıtık bir SQL sorgu motoru olarak da çalışabilir. Bu bölüm, Spark SQL’in Python’da DataFrame’leri nasıl kullanmana imkân verdiğini gösterir.
PySpark MLlib, Python’da Apache Spark’ın ölçeklenebilir machine learning kütüphanesidir ve yaygın öğrenme algoritmaları ile yardımcı araçlardan oluşur. Bu son bölüm boyunca önemli Machine Learning algoritmalarını öğreneceksin. Bir film öneri motoru ve spam filtresi oluşturacak ve k-means kümeleme kullanacaksın.
Geçerli egzersiz