K-means eğitimi

Artık RDD eğitime hazır olduğuna göre, bu ikinci bölümde hesaplama süresini kısaltmak için k değerlerini 13’ten 16’ya kadar deneyecek ve doğru k’yı seçmek için dirsek yöntemini kullanacaksın. Dirsek yönteminin fikri, veri kümesinde farklı k değerleri için K-means kümeleme çalıştırmak, Kareli Hata Toplamı (Within Set Sum of Squared Error - WSSSE) hesaplamak ve WSSSE’de ani düşüşün olduğu, yani dirseğin oluştuğu noktadaki en iyi k’yı seçmektir. Sonrasında modeli en iyi k ile yeniden eğitecek ve sonunda centroid’leri (küme merkezleri) elde edeceksin.

Unutma, çalışma alanında bir SparkContext sc ve rdd_split_int RDD zaten mevcut.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Big Data Temelleri

Kursa Göz Atın

Egzersiz talimatları

KMeans modelini 13’ten 16’ya kadar kümelerle eğit ve her küme için WSSSE değerini yazdır.
En iyi k ile KMeans modelini yeniden eğit.
En iyi k ile eğitilmiş KMeans modelinin Küme Merkezlerini (centroid’ler) al.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Train the model with clusters from 13 to 16 and compute WSSSE
for clst in range(13, 17):
    model = KMeans.____(rdd_split_int, clst, seed=1)
    WSSSE = rdd_split_int.____(lambda point: error(point)).reduce(lambda x, y: x + y)
    print("The cluster {} has Within Set Sum of Squared Error {}".format(clst, ____))

# Train the model again with the best k
model = KMeans.train(rdd_split_int, k=____, seed=1)

# Get cluster centers
cluster_centers = model.____

Kodu Düzenle ve Çalıştır