K-means clustering: latihan pertama
Latihan ini akan membiasakan Anda dengan penggunaan k-means clustering pada suatu himpunan data. Mari gunakan himpunan data Comic Con dan lihat cara kerja k-means clustering pada data tersebut.
Ingat dua langkah dalam k-means clustering:
- Menentukan pusat klaster melalui fungsi
kmeans(). Fungsi ini memiliki dua argumen wajib: observasi dan jumlah klaster. - Memberikan label klaster melalui fungsi
vq(). Fungsi ini memiliki dua argumen wajib: observasi dan pusat klaster.
Data disimpan dalam pandas DataFrame, comic_con. x_scaled dan y_scaled adalah nama kolom untuk koordinat X dan Y yang telah distandardisasi dari posisi orang pada suatu waktu tertentu.
Latihan ini adalah bagian dari kursus
Analisis Klaster di Python
Petunjuk latihan
- Impor fungsi
kmeansdanvqdi SciPy. - Hasilkan pusat klaster menggunakan fungsi
kmeans()dengan dua klaster. - Buat label klaster menggunakan pusat klaster tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the kmeans and vq functions
from ____.cluster.vq import ____, ____
# Generate cluster centers
cluster_centers, distortion = ____
# Assign cluster labels
comic_con['cluster_labels'], distortion_list = ____
# Plot clusters
sns.scatterplot(x='x_scaled', y='y_scaled',
hue='cluster_labels', data = comic_con)
plt.show()