En uygun küme sayısını belirle
Burada, kare hata toplamındaki azalmanın marjinal hale geldiği en uygun küme sayısını belirlemek için dirsek ölçütünü kullanacaksın. Bu, denemeye başlamak için matematiksel olarak makul bir küme sayısı bulmanda önemli bir adımdır. Birden çok k küme sayısı üzerinden yineleme yapacak, her biri için KMeans algoritmasını çalıştıracak, ardından hataları her k değeri için çizerek hatalardaki azalmanın yavaşladığı “dirsek” noktasını bulacaksın.
KMeans modülü sklearn.cluster içinden, seaborn kütüphanesi sns kısaltmasıyla ve matplotlib.pyplot modülü plt olarak yüklendi. Ayrıca, ölçeklenmiş veri kümesi wholesale_scaled_df adıyla bir pandas DataFrame olarak yüklendi.
Bu egzersiz
Python ile Pazarlama için Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Boş bir
ssesözlüğü oluştur. - 1 ile 11 arasındaki k değerleri için bir
KMeansalgoritması eğit ve hatalarıssesözlüğünde sakla. - Grafiğe başlık ekle.
- X ekseninde anahtarlar, Y ekseninde değerler olacak şekilde bir saçılım grafiği oluştur ve grafiği göster.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create empty sse dictionary
sse = {}
# Fit KMeans algorithm on k values between 1 and 11
for k in ___(1, 11):
kmeans = ___(n_clusters=___, random_state=333)
kmeans.___(wholesale_scaled_df)
sse[k] = kmeans.inertia_
# Add the title to the plot
plt.___('Elbow criterion method chart')
# Create and display a scatter plot
sns.pointplot(x=list(sse.___()), y=list(sse.___()))
plt.___()