Mengevaluasi pengelompokan biji-bijian
Pada latihan sebelumnya, Anda melihat dari plot inersia bahwa 3 adalah jumlah klaster yang baik untuk data biji-bijian. Faktanya, sampel biji-bijian berasal dari campuran 3 varietas berbeda: "Kama", "Rosa", dan "Canadian". Pada latihan ini, kelompokkan sampel biji-bijian menjadi tiga klaster, lalu bandingkan klaster tersebut dengan varietas biji-bijian menggunakan tabulasi silang.
Anda memiliki array samples berisi sampel biji-bijian, dan sebuah daftar varieties yang memberikan varietas biji-bijian untuk setiap sampel. Pandas (pd) dan KMeans telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Unsupervised Learning in Python
Petunjuk latihan
- Buat model
KMeansbernamamodeldengan3klaster. - Gunakan metode
.fit_predict()darimodeluntuk melatihnya padasamplesdan memperoleh label klaster. Menggunakan.fit_predict()sama dengan menggunakan.fit()diikuti.predict(). - Buat DataFrame
dfdengan dua kolom bernama'labels'dan'varieties', menggunakanlabelsdanvarietiesmasing-masing sebagai nilai kolom. Ini telah disiapkan untuk Anda. - Gunakan fungsi
pd.crosstab()padadf['labels']dandf['varieties']untuk menghitung berapa kali setiap varietas biji-bijian bertepatan dengan setiap label klaster. Simpan hasilnya kect. - Tekan Kirim untuk melihat tabulasi silang!
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a KMeans model with 3 clusters: model
model = ____
# Use fit_predict to fit model and obtain cluster labels: labels
labels = ____
# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})
# Create crosstab: ct
ct = ____
# Display ct
print(ct)