BaşlayınÜcretsiz Başlayın

K-means eğitimi

Artık RDD eğitime hazır olduğuna göre, bu ikinci bölümde hesaplama süresini kısaltmak için k değerlerini 13’ten 16’ya kadar deneyecek ve doğru k’yı seçmek için dirsek yöntemini kullanacaksın. Dirsek yönteminin fikri, veri kümesinde farklı k değerleri için K-means kümeleme çalıştırmak, Kareli Hata Toplamı (Within Set Sum of Squared Error - WSSSE) hesaplamak ve WSSSE’de ani düşüşün olduğu, yani dirseğin oluştuğu noktadaki en iyi k’yı seçmektir. Sonrasında modeli en iyi k ile yeniden eğitecek ve sonunda centroid’leri (küme merkezleri) elde edeceksin.

Unutma, çalışma alanında bir SparkContext sc ve rdd_split_int RDD zaten mevcut.

Bu egzersiz

PySpark ile Big Data Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • KMeans modelini 13’ten 16’ya kadar kümelerle eğit ve her küme için WSSSE değerini yazdır.
  • En iyi k ile KMeans modelini yeniden eğit.
  • En iyi k ile eğitilmiş KMeans modelinin Küme Merkezlerini (centroid’ler) al.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Train the model with clusters from 13 to 16 and compute WSSSE
for clst in range(13, 17):
    model = KMeans.____(rdd_split_int, clst, seed=1)
    WSSSE = rdd_split_int.____(lambda point: error(point)).reduce(lambda x, y: x + y)
    print("The cluster {} has Within Set Sum of Squared Error {}".format(clst, ____))

# Train the model again with the best k
model = KMeans.train(rdd_split_int, k=____, seed=1)

# Get cluster centers
cluster_centers = model.____
Kodu Düzenle ve Çalıştır