BaşlayınÜcretsiz Başlayın

Machine Learning Pipeline'ları

Sonraki iki bölümde veri alımından model değerlendirmeye kadar bir machine learning pipeline'ının her aşamasından geçeceksin. Hadi başlayalım!

pyspark.ml modülünün merkezinde Transformer ve Estimator sınıfları yer alır. Modüldeki diğer sınıfların neredeyse tamamı bu iki temel sınıfa benzer şekilde davranır.

Transformer sınıflarının, bir DataFrame alıp yeni bir DataFrame döndüren .transform() metodu vardır; genellikle de orijinaline yeni bir sütun eklenmiş hâlini döndürür. Örneğin, sürekli bir özelliği ayrık aralıklara bölmek için Bucketizer sınıfını kullanabilir ya da temel bileşen analiziyle veri kümeninin boyutunu azaltmak için PCA sınıfından yararlanabilirsin.

Estimator sınıflarının hepsi bir .fit() metodunu uygular. Bu metotlar da bir DataFrame alır ama başka bir DataFrame döndürmek yerine bir model nesnesi döndürür. Bu, kategorik olarak tutulan string verileri modellerine dahil etmek için bir StringIndexerModel ya da sınıflandırma veya regresyon için random forest algoritmasını kullanan bir RandomForestModel olabilir.

Aşağıdakilerden hangisi Spark'ta machine learning ile ilgili doğru değildir?

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

İnteraktif egzersizlerimizden biriyle teoriyi pratiğe dökün

Egzersizi başlat